WebAgent-基于大型语言模型的代理程序

这篇具有很好参考价值的文章主要介绍了WebAgent-基于大型语言模型的代理程序。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大型语言模型(LLM)可以解决多种自然语言任务,例如算术、常识、逻辑推理、问答、文本生成、交互式决策任务。最近,LLM在自主网络导航方面也取得了巨大成功,代理程序助HTML理解和多步推理的能力,通过控制计算机或浏览互联网进行一系列计算机操作,以满足给定的自然语言指令。

然而,现实世界的网站上的网络导航仍然存在以下问题:

(1)缺乏预定义的操作空间。

(2)HTML观察比模拟器更长。

(3)LLM缺乏HTML领域知识。

考虑到现实世界网站的开放性和指令的复杂性,提前定义适当的操作空间是具有挑战性的。此外,尽管有几项研究认为通过指令微调或根据人类反馈进行强化学习可以改善对HTML的理解和网络导航的准确性,但最近的LLM并不总是具有处理HTML文档的最优设计。大多数LLM的上下文长度与现实网站上HTML的平均标记相比更短,并且没有采用特定的HTML领域知识。

WebAgent-基于大型语言模型的代理程序,AIGC,人工智能,大模型训练,人工智能

针对上述问题,研究人员引入了WebAgent,这是一个由LLM驱动的代理程序,可以通过组合规范化的网络操作在现实网站上根据用户指令完成导航任务。WebAgent通过将指令分解为规范化的子指令来进行规划,将长HTML文档转化为与任务相关的片段,并通过生成的Python程序对网站进行操作。研究人员将两个LLM组合成WebAgent:Flan-U-PaLM用于基于代码的生成,以及新引入的HTML-T5(一种新型预训练LLM),用于规划和摘要本地长HTML文档。

WebAgent-基于大型语言模型的代理程序,AIGC,人工智能,大模型训练,人工智能

通过实验证明,该方法可以提高在现实网站上的成功率50%以上,并且HTML-T5是目前解决基于HTML任务的最佳模型;在MiniWoB网络导航基准测试中,其成功率比之前最先进的方法高出14.9%,并且在离线任务规划评估上也具有更好的准确性。

WebAgent-基于大型语言模型的代理程序,AIGC,人工智能,大模型训练,人工智能文章来源地址https://www.toymoban.com/news/detail-631128.html

到了这里,关于WebAgent-基于大型语言模型的代理程序的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包