Ai2推出了可操控网页浏览器的开源视觉AI代理-66安卓网

首页 → 热门资讯 → 软件教程 → Ai2推出了可操控网页浏览器的开源视觉AI代理

艾伦人工智能研究所是一家坐落于西雅图的知名非营利研究机构，其宗旨是推动人工智能模型与系统的发展。就在今天，该机构推出了一款全新的开源AI代理，这款代理能够代替用户操控网页浏览器，并且可以自动化完成各项任务。

这个网页代理代表了视觉语言模型的下一步发展，这些模型将大型语言模型的能力从理解图像和文本并回答问题，扩展到能够采取实际行动。

今天，公司正式宣布推出MolmoWeb——这款产品依托于Molmo 2多模态模型家族打造，提供40亿参数与80亿参数两种规模选择。该产品将免费开放，涵盖模型权重、训练数据及即将发布的代码，同时还包含构建过程中所用的评估工具。在设计层面，MolmoWeb支持本地部署或云端自托管两种模式。

为了完成任务，AI代理需要理解人类给出的指令以及所能看到的内容，其中涵盖用自然语言表述的任务集合与实时网页。AI模型借助一系列网页截图来观察页面，随后直接和界面进行交互，对点击、在文本框输入字符或者上下滚动等操作可能产生的结果进行预测。

公司称，和其他开源网页代理有所不同，MolmoWeb在训练过程中并未依赖压缩的专有视觉代理。其数据来源包括合成生成的仅文本可访问性代理，以及人类实际网页浏览活动产生的使用数据。

代理界面支持导航URL、点击屏幕坐标、在字段中输入文本、滚动页面、打开和切换浏览器标签页，并向用户发送消息。

所有这些操作都直接在浏览器内进行，点击位置在执行时以像素坐标表示。

Ai2方面指出，代理的设计初衷是避免因底层网页代码或HTML发生动态变化而导致故障。比如，部分网页为了自我保护，会对自身的操作方式进行混淆或隐藏处理；还有一些网页会借助专门的JavaScript引擎来实现检测机器人、拦截广告拦截器、展示动画以及跟踪用户等功能。

直接使用底层代码操作，往往会消耗较多的代币——而代币是AI运行的基础货币。相比之下，视觉界面的交互逻辑更贴近人类与网页的互动模式：用户所看到的界面呈现，直接对应着他们接近页面的方式。这种直观性使得调试模型行为的过程变得更加容易，能更清晰地追溯模型做出特定决策的原因。

尽管体积小巧，Ai2指出MolmoWeb在开源网页代理领域取得了领先的成果。在主流评估套件的测试中，8B模型在WebVoyager的得分为78.2%，DeepShop上是42.3%，TailBench则达到49.5%。该模型在全部四个基准测试中，表现均优于Fara-7B等领先的开源模型。

公司称，MolmoWeb的表现能够超过基于GPT-4构建、依赖注释和结构化页面数据的代理。Ai2指出，这一成果意义非凡，原因在于这些模型能够“深入”网页代码，且参数规模远超前者——就好比拿老鼠和大象作比较。

更多对开源浏览器AI代理的访问也将帮助研究人员和爱好者开发自己的网页自动化。

封闭源代码的大型语言模型供应商已进军市场，推出可实现网页任务自动化的代理浏览器，其中OpenAI Group PBC和Perplexity AI Inc. 分别推出了ChatGPT Atlas与Perplexity Comet。