
艾伦人工智能研究所是一家坐落于西雅图的知名非营利研究机构,其宗旨是推动人工智能模型与系统的发展。就在今天,该机构推出了一款全新的开源AI代理,这款代理能够代替用户操控网页浏览器,并且可以自动化完成各项任务。
这个网页代理代表了视觉语言模型的下一步发展,这些模型将大型语言模型的能力从理解图像和文本并回答问题,扩展到能够采取实际行动。
今天,公司正式宣布推出MolmoWeb——这款产品依托于Molmo 2多模态模型家族打造,提供40亿参数与80亿参数两种规模选择。该产品将免费开放,涵盖模型权重、训练数据及即将发布的代码,同时还包含构建过程中所用的评估工具。在设计层面,MolmoWeb支持本地部署或云端自托管两种模式。
为了完成任务,AI代理需要理解人类给出的指令以及所能看到的内容,其中涵盖用自然语言表述的任务集合与实时网页。AI模型借助一系列网页截图来观察页面,随后直接和界面进行交互,对点击、在文本框输入字符或者上下滚动等操作可能产生的结果进行预测。
公司称,和其他开源网页代理有所不同,MolmoWeb在训练过程中并未依赖压缩的专有视觉代理。其数据来源包括合成生成的仅文本可访问性代理,以及人类实际网页浏览活动产生的使用数据。
代理界面支持导航URL、点击屏幕坐标、在字段中输入文本、滚动页面、打开和切换浏览器标签页,并向用户发送消息。
所有这些操作都直接在浏览器内进行,点击位置在执行时以像素坐标表示。
Ai2方面指出,代理的设计初衷是避免因底层网页代码或HTML发生动态变化而导致故障。比如,部分网页为了自我保护,会对自身的操作方式进行混淆或隐藏处理;还有一些网页会借助专门的JavaScript引擎来实现检测机器人、拦截广告拦截器、展示动画以及跟踪用户等功能。
直接使用底层代码操作,往往会消耗较多的代币——而代币是AI运行的基础货币。相比之下,视觉界面的交互逻辑更贴近人类与网页的互动模式:用户所看到的界面呈现,直接对应着他们接近页面的方式。这种直观性使得调试模型行为的过程变得更加容易,能更清晰地追溯模型做出特定决策的原因。
尽管体积小巧,Ai2指出MolmoWeb在开源网页代理领域取得了领先的成果。在主流评估套件的测试中,8B模型在WebVoyager的得分为78.2%,DeepShop上是42.3%,TailBench则达到49.5%。该模型在全部四个基准测试中,表现均优于Fara-7B等领先的开源模型。
公司称,MolmoWeb的表现能够超过基于GPT-4构建、依赖注释和结构化页面数据的代理。Ai2指出,这一成果意义非凡,原因在于这些模型能够“深入”网页代码,且参数规模远超前者——就好比拿老鼠和大象作比较。
更多对开源浏览器AI代理的访问也将帮助研究人员和爱好者开发自己的网页自动化。
封闭源代码的大型语言模型供应商已进军市场,推出可实现网页任务自动化的代理浏览器,其中OpenAI Group PBC和Perplexity AI Inc. 分别推出了ChatGPT Atlas与Perplexity Comet。