Mind2Web: Towards a Generalist Agent for the Web 论文解读

这篇具有很好参考价值的文章主要介绍了Mind2Web: Towards a Generalist Agent for the Web 论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

主页:https://osu-nlp-group.github.io/Mind2Web

训练集:https://huggingface.co/datasets/osunlp/Mind2Web

概要

本文介绍了一个名为MIND2WEB的数据集,用于开发和评估Web通用代理,可以使用自然语言输入指令,使之可以在任何复杂的网站上执行操作。

对比

前人缺陷:

现有的用于Web代理的数据集要么使用模拟网站,要么仅涵盖有限的网站和任务集,因此不适用于通用的Web代理。

本文优势:

MIND2WEB数据集包含来自137个网站、跨足31个领域的超过2,000个开放式任务,以及为这些任务收集的众包行动序列。MIND2WEB为构建通用Web代理提供了三个必要的要素:

  • 多样化的领域、网站和任务
  • 使用真实世界的网站而不是模拟和简化的网站
  • 广泛的用户交互模式。

基于MIND2WEB,作者进行了首次尝试使用大型语言模型(LLMs)构建通用Web代理。

由于真实世界网站的原始HTML通常元素过多无法直接输入LLM,本文的方案为:先通过小型LM进行筛选,再输入到LLM中,可以显著提升模型的效果和效率。

MIND2WEB 数据集介绍

  • 来自于真实网站的捕捉
  • 涵盖领域广
  • 网站的快照和交互捕获完全

任务定义

该数据集旨在使代理通过一系列操作完成特定任务

  • 任务描述:是高级的,而不是避免了低级的、一步一步的指令。
  • 操作序列:(目标元素,操作)->(目标元素,操作)-> ... ->(目标元素,操作)
    • 三种常见操作:点击(包括悬停和按回车)、输入、选择
    • 操作序列通常跨越一个站点的多个网页。
  • 网页快照:HTML、DOM、HAR等过程信息

执行方式:逐步预测、执行,

input:当前网页、历史操作,output:接下来的操作 (有RNN的意思)

数据收集

数据通过亚马逊众包平台(Amazon Mechanical Turk)收集,主要分为三个阶段:

  1. 第一阶段-任务提出:首先要求工作者提出可以在给定网站上执行的任务。作者会仔细审核提出的任务,并选择在第二阶段进行注释的可行且有趣的任务。
  2. 第二阶段-任务演示:要求工作者演示如何在网站上执行任务。使用 Playwright 开发了一个注释工具,记录交互跟踪并在每个步骤中对网页进行快照。如图 2 所示,用红色标记的操作将导致转换到新网页。
  3. 第三阶段-任务验证:作者验证所有任务,以确保所有操作都是正确的,任务描述正确地反映了注释的操作。

Mind2Web: Towards a Generalist Agent for the Web 论文解读

与前人的比较 及 研究挑战

Mind2Web: Towards a Generalist Agent for the Web 论文解读

  • 采用真实的网页,更符合实际
  • 网页元素多、复杂度高,未进行人工简化
  • 任务等级高,更接近日常使用
    • 先前的研究通常提供逐步的指令,并主要关注测试代理将低级指令转化为操作的能力,例如,“在位置字段中输入纽约,单击搜索按钮并选择明天标签”
    • 本文数据集只提供高级目标,例如,“纽约明天的天气如何?”

故这种数据集(Mind2Web)对于代理模型的训练应用来说提出了很大的挑战。

MindAct 框架

为了使用Mind2Web数据集,引入了MindAct框架

由于原始HTML过大,直接输入到LLM中消耗资源过大,MindAct将此分为二阶段过程(如图三)

  • 第一阶段:如图四,使用一个Small LM,从HTML中元素中筛选出几个候选元素
  • 第二阶段:将候选元素合并成HTML片段传入到LLM进行最后预测(元素 + 操作)

Small LM 用于筛选;LLM用于预测
Mind2Web: Towards a Generalist Agent for the Web 论文解读
Mind2Web: Towards a Generalist Agent for the Web 论文解读

通过Small LM生成小模型

feature: Task Description + Previous Actions

target: Top-k Elements

通过LLM预测操作

LLM用于判别 比 生成更有效率

故LM被训练为从一系列选项中进行选择而不是生成完整的目标元素

Divide the top-k candidates into multiple clusters of five options.

If more than one option is selected after a round,

Form new groups with the selected ones.

This process repeats until a single element is selected, or all
options are rejected by the model

test result:

Mind2Web: Towards a Generalist Agent for the Web 论文解读

  • 为什么MindAct和两个baseline不使用相同的LLM以控制变量?

baseline1: Classfication,仅使用Debertab进行 元素 预测

baseline2: Generation,使用Flan-T5直接进行 元素+操作 的预测

实验

实验步骤

Test-Cross-Domain:使用不同的域名进行预测

Test-Cross-Website:使用同域的网站预测

TestCross-Task:使用相同的网站预测

数据预处理和评估

分别使用Element Accuracy、Operation F1、Step Success Rate、Success Rate对数据进行评估

实验结果

第一步候选生成

使用了微调的DeBERTa 作为Small LM,用于第一步的候选生成(For efficiency, use the base version DeBERTaB with 86M parameters.)

分别获得了88.9% / 85.3% / 85.7% 的recall

取k=50,即top-50用于下一步预测。

第二步操作预测

使用Flan-T5作为生成模型

尽管是大模型(220M for Flan-T5),但在元素选择方面表现先不佳

使用上述MindAct中使用的multi-choice QA formulation方法很有效

The best model achieves 52.0% step success rate under Cross-Task setting, and 38.9% / 39.6% when generalizing to unseen websites(Cross-Website) and domains(Cross-Domain).
However, the overall task success rate remains low for all models, as the agent often commits at least one error step in most cases.

Mind2Web: Towards a Generalist Agent for the Web 论文解读

Three Levels of Generalization

  • 模型均在Cross-Task表现最佳、但在Cross-Website、Cross-Domain中低于Cross-Task 10%以上。由此可见,对于未见过的环境进行预测是目前最大的问题
  • 在图6中可见,Cross-Website、Cross-Domain中的表现很相近。就此可推断,首要问题在于网站的设计和交互逻辑、而不是域名特性
  • 对于网站之间的一些共同的操作,预训练语言模型已经有了可以解析复杂任务的能力。在具体环境中,将这些知识转化为可操作的步骤仍然是一个相当大的挑战。

In-context Learning with LLM

分别使用MINDACT的方法在GPT-3.5和GPT-4进行了测试,结果如下:

GPT-3.5表现不好,在元素选择正确率上仅有20%

GPT-4要稍好一些,与微调过的Flan-T5不相上下,表明用大语言模型在此有很大的潜力

但GPT-4运行成本很高,使用较小规模的模型是一个很好的发展方向文章来源地址https://www.toymoban.com/news/detail-710842.html

到了这里,关于Mind2Web: Towards a Generalist Agent for the Web 论文解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CORE: Cooperative Reconstruction for Multi-Agent Perception 论文阅读

    论文连接 CORE: Cooperative Reconstruction for Multi-Agent Perception 0. 摘要 本文提出了 CORE,一种概念简单、有效且通信高效的多智能体协作感知模型。 从合作重建的新颖角度解决了该任务: 合作主体共同提供对环境的更全面的观察 整体观察可以作为有价值的监督,明确指导模型学习如

    2024年02月07日
    浏览(32)
  • 【大模型系列】AutoAgents: A Framework for Automatic Agent Generation论文阅读

    AutoAgents: A Framework for Automatic Agent Generation 基本信息 作者单位:北京大学 香港科技大学 北京人工智能研究院 滑铁卢大学 期刊:arXiv 一句话介绍:自适应地生成和协调多个专业代理,根据不同的任务构建 AI 团队 论文:https://arxiv.org/abs/2309.17288 代码:https://github.com/Link-AGI/Aut

    2024年01月19日
    浏览(41)
  • 【论文通读】UFO:A UI-Focused Agent for Windows OS Interaction

    Windows客户端第一个JARVIS,利用GPT4 Vision识别截图信息辅助智能体自动化执行操作,作为微软大肆宣传的一篇工作,其前瞻性还是值得学习的,只不过在实现上博主认为还有很大的改进空间,不过也算是Windows端AI助手的基石工作了。 Paper https://arxiv.org/pdf/2402.07939.pdf Code https://

    2024年04月26日
    浏览(54)
  • 强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

    Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning 这是一篇发表在NeurIPS2022的论文,文章提出了一种分组算法,旨在提高算法零样本泛化能力 1 论文背景 CTDE :集中训练分散执行,在训练阶段将所有智能体的Q值加到一起去训练,训练完了之后在执行阶段大家各自执行自己

    2024年01月25日
    浏览(42)
  • 论文笔记:Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati

    使用LMM生成活动轨迹的开创性工作 理解活动模式(mobility pattern)——能够灵活模拟城市移动性 尽管个体活动轨迹数据由于通信技术的进步而丰富,但其实际使用往往受到隐私顾虑的限制 ——生成的数据可以提供一种可行的替代方案,提供了效用和隐私之间的平衡 之前有很

    2024年03月11日
    浏览(59)
  • Zabbix【部署 05】 Docker部署Zabbix Server Agent Agent2 Web interface及 Java-Gate-Way(详细启动脚本及踩坑记录)不定时更新

    安装Docker。 为Zabbix创建专用网络 zabbix-net 。 创建数据库用户 zabbix 和数据库 zabbix 。 172.20.240.0【Zabbix 专用网络的 Gateway IP 下边有查询方法】 172.17.0.8【云服务器的内网IP】 开启JAVAGATEWAY服务: 2.1 agent 其他启动命令: 踩坑记录: 2.2 agent2 Zabbix agent 2 是新一代的 Zabbix agent,可以

    2024年02月02日
    浏览(27)
  • 【iOS免越狱】利用IOS自动化web-driver-agent_appium-实现自动点击+滑动屏幕

    1.目标 在做饭、锻炼等无法腾出双手的场景中,想刷刷抖音 刷抖音的时候有太多的广告 如何解决痛点 抖音自动播放下一个视频  iOS系统高版本无法 越狱 安装插件 2.操作环境 MAC一台,安装 Xcode iPhone一台,16 系统以上最佳  3.流程 下载最新 web-driver-agent_appium xcode 打开  配置

    2024年02月08日
    浏览(32)
  • Mind+积木编程控制小水泵给宠物喂水

              前期用scratch,带着小朋友做了大鱼吃小鱼、桌面弹球、小学生计算器3个作品,小朋友收获不小。关键是小家伙感兴趣,做出来后给家人炫耀了一圈后,兴趣大增,嚷嚷着要做更好玩的。          最近,娃妈从抖音上买了个小猫喝水的容器,一通电,水龙头就自

    2024年02月16日
    浏览(31)
  • Mind+Python+Mediapipe项目——AI健身之跳绳

    原文:Mind+Python+Mediapipe项目——AI健身之跳绳 - DF创客社区 - 分享创造的喜悦 【项目背景】 跳绳是一个很好的健身项目,为了获知所跳个数,有的跳绳上会有计数器。但这也只能跳完这后看到,能不能在跳的过程中就能看到,这样能让我们坚持跳的更多,更有趣味性。 【项目

    2024年02月03日
    浏览(25)
  • 图形化编程:以Scratch、Mind+为例,探索未来的编程教育

    随着科技的发展,编程已经成为了21世纪必备的技能之一。然而,传统的文本编程方式对于初学者来说往往显得复杂且难以理解。为了解决这个问题,图形化编程应运而生。图形化编程是一种全新的编程方式,它将编程的逻辑和流程以图形化的方式呈现出来,让用户通过拖拽

    2024年01月24日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包