ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式

这篇具有很好参考价值的文章主要介绍了ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、概述

title:WEBCPM: Interactive Web Search for Chinese Long-form Question Answering

论文地址:https://arxiv.org/abs/2305.06849

代码:https://github.com/thunlp/WebCPM

1.1 Motivation

  1. 开发一个类似于WebGPT一样的中文版本的数据集,用于检索相关事实,并基于这些事实生成最终回答,并发布一个baseline模型。
  2. LFQA:旨在回答复杂的、开放式的问题,并带有详细的、段落长度的回答,一般有两个步骤,information retrieval:信息检索,检索出相关信息。information synthesis:信息合成,集成信息合成最终的答案。

1.2 Methods

  1. 本文发布了WebCPM,第一个中文LFQA数据集,它的information retrieval信息检索数据是基于网络搜索的交互信息拿到的。
  2. 和WebGPT一样,也开发了一个搜索引擎的interface,招募标注人员使用该interface搜索相关信息然后回答问题,同时web search的行为会被记录下来。

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

  • interface特点:可以搜索相关事实,记录相关事实,同时记录大约10个交互action行为信息。
  1. 本文提到的LFQA pipeline框架:

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

  • web search:执行一系列action,取收集相关的信息,主要包括action prediction,search query generation,supporting fact extraction三个模块,如果action模块预测为Search作为当前操作,则它会调用query生成模块来生成查询内容,如果action模块预测Quote作为当前操作,则会调用Quote模块来抽取相关事实,总共大概有十个左右的action。
  • 各部分实现方法:
    • Action Prediction:预测下一个action,大概10个左右的action,建模成一个多分类任务,预测每一个action的概率,并把它用生成的方法来实现,例如search的概率就是P(search|St),St为t时刻的状态。
    • Search Query Generation:生成搜索的query,也是用文本生成来实现,P(Qt+1|St)

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

    • Supporting Fact Extraction:直接预测所有的事实数据太慢,先预测start和end位置少量的token,然后用text matching匹配start和end位置,检索出所有的事实文档。

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

    • Synthesis Model:组织相关事实依据,生成最终的回复,搜索出来的数据会存在噪音:随机构造了不相关样本,补充到数据集中,让模型预测理想的结果,通过这种方法来降低噪声对模型的影响

1.3 Conclusion

  1. 收集了5500个高质量的QA对,基于15372个支持的事实,以及125954个搜索action。
  2. 构建了一个中文long-form QA网络搜索交互数据的benchmark,同时一个开源的interface。我们将任务分解为4个子任务,并设计了一个模块化的pipeline。通过对具有代表性的plm进行微调,我们对每个模块进行单独的评估,并对pipeline进行整体评估。
  3. 利用预训练模型去模拟人类的搜索行为,并基于搜索的事实生成答案,分别在我们的数据集和DuReader上的数据集有32.5%和47.5%的情况下生成的答案并不比人工编写的答案差。
  4. 我们进行了深入的分析,以理解我们的框架的核心设计元素。我们希望我们的interface、数据集、框架和分析能够促进这一领域的更多探索。

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

  • 特点:基于公开数据,基于long-form QA长文本,段落的回答,有自由形式的回答,并且有网络搜索行为,平均问题长度29,平均事实长度555,平均回答长度257,比其他数据都高不少。

1.4 limitation

  1. 评估表明,我们的pipeline方法在信息检索和合成过程中的表现比人类差67.5%,这仍有改进的空间。

二、详细内容

1 LFQA数据样例

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

  • 特点:
    • 记录搜索过程的action
    • 记录抽取出来的多条事实依据,有标注的事实的label
    • 基于事实依据生成最终答案

2 各子模块在三类典型的中文生成式PLM实验表现

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

  • 建模方法:search阶段分为三个子任务,Action预测,Query生成,Fact抽取,都是用生成模型来实现
  • 在8种支持中文的典型生成式PLM做了实验,涵盖3种架构。
  • 不同模型在Action预测,Query生成,Fact预测的效果都不太一致,不过最大的CMP10B模型效果确实是最好的。

3 pipeline方法消融实验

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

  1. 图(a):对比不同方法收集的fact效果对比
    1. pipeline-collected:指本文提到的Action预测,Query生成,Fact预测三个模块组成pipeline提取事实的方法,该方法可能会带来噪声,整体不落败的比例为19.0+13.5=32.5
    2. human-collected:指人工标注收集到的事实fact,最为准确,整体不落败的比例为16.0+29.5=45.5,对比pipeline方法,效果还是好不少,说明事实抽取的噪音确实会影响效果
    3. Non-interactive Search:指利用非交互式方法收集的fact,没有pipeline式可能拆分复杂的问题到简单的问题,搜索其他变种等方法,效果差的非常多,说明pipeline方法的优越性。
    4. 总结:人工fact > pipeline fact >> Non-interactive Search方法
  1. 图(b):对比pipelie方法在DuReader数据集上和真实answer的效果差异
    1. search:在该数据集上,比真实人工标注的answer要差一些
    2. ZhiDao:在改数据集上,居然比真实人工标注的answer效果还要好,说明本文方法的有效性。
    3. 其他:相等的为0,因为他们搜集到的事实fact完全不同,所以基本都不相等
  1. 图(c):合成模型消融实验
    1. 背景:因为交互式搜索不可避免引入不相关的fact会影响效果,本文通过在训练集引入不相关的fact来提升合成模型消除噪声的能力,这里对比不引入噪声数据和引入噪声数据的效果对比。【具体方法是随机挑选不相关的数据到fact中,让模型学习预测准确的answer,提升模型忽略不相关噪声的能力】
    2. 结论:本文采用的合成模型的策略优于baseline模型。

4 当前状态特征消融实验

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

目的:当前状态有非常多特征,例如上一个时间Action,上一个时间的fact一句,窗口特征windows等,哪些特征对各个子模块最有用呢?

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

  • 实验说明:尝试去掉各个特征,比较各个子模块与之前的效果差异。
  • 结论1:对于Action模型,去掉上一个时间的Action At-1,效果差的非常多,说明这个特征对Action模型非常重要。
  • 结论2:对于Fact模型,去掉上一个收集的Fact Ft,效果也差的非常多,说明当前需要收集的fact还是会去参考之前的fact。

5 Query Generation模块在干啥?

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎

  • 方法总结:主要基于原始问题做一拓展,搜集更多准确的,相关的依据fact,用于生成更好的answer
    • copy:复制原始问题
    • decomposing question into multiple sub-question:拆成多个子问题
    • rephrasing question with related terms:利用相关术语重新构造问题

6 各类Action占比统计

ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式,nlp_paper,llm,nlp,chatgpt,人工智能,搜索引擎文章来源地址https://www.toymoban.com/news/detail-520256.html

  • 结论:我们在图7中记录了我们收集的数据集中不同的预定义动作的比例。可以看出,向下滚动、引用和搜索是最常用的操作。加载页面<1>的比例大于<2>和<3>的比例。这是因为搜索引擎根据它们与查询的相关性对搜索结果进行排序。人类倾向于根据搜索引擎推荐的顺序来访问这些链接。如果人类在第一页上收集了足够的支持事实,或者发现它无关紧要,他们可能不会继续浏览当前查询的其他网页。

三、个人总结

  1. 提出了一个不错的中文LFQA数据集,特点是包含人类和搜索引擎交互的数据,并且问题比较复杂。
  2. 提供了一个比较强的baseline方法:引入了交互式搜索,对原始的问题做拓展,在搜索引擎上收集充分多的事实,提升检索方法收集依据fact的效果,同时合成答案阶段,也采用了一些策略来优化不相关fact噪声带来的影响。
  3. 同时开源了整个web搜索框架,值得其他地方借鉴。
  4. 这个方法可以和langchain等方法结合,进一步提升本地知识检索和生成的效果。

到了这里,关于ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ACL2023 | 大模型如何快速构建指令遵循数据集?self-instruct:用175条种子数据追上InstructGPT001效果

    title:SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions 论文地址:https://arxiv.org/abs/2212.10560 代码:GitHub - yizhongw/self-instruct: Aligning pretrained language models with instruction data generated by themselves. 1 Motivation 构造instruction data非常耗时耗力,常受限于质量,多样性,创造性,阻碍了

    2024年02月09日
    浏览(49)
  • 每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

    Orca-Math 是微软研究院发布的数学推理模型, 该模型展示了较小的专业模型在特定领域的价值,它们可以匹配甚至超越更大模型的性能。 微软近期开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集,现已在 hyper.ai 官网提供下载,快来体验吧! 3 月 11 日-3 月 15 日,

    2024年03月22日
    浏览(52)
  • Python:清华ChatGLM-6B中文对话模型部署

    1、简介 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话

    2024年02月08日
    浏览(47)
  • 探索存证、溯源类数据库最优解,聚合数据区块链数据库AnchorDB发布

    近日,聚合数据区块链数据库AnchorDB 正式对外发布,这是企业对于数字化技术应用的又一次探索,产品的发布,将为存证、溯源类场景提供更高效、易用的数据库解决方案,并且进一步丰富聚合数据的数字化产品矩阵。 作为一款具有区块链不可篡改特性的轻量级存证数据库,

    2024年02月11日
    浏览(44)
  • 清华发布首个最全大模型安全评测系统,ChatGPT登榜首!

    夕小瑶科技说 原创 作者 | 天于刀刀 Python 当前大型语言模型的火爆程度我们不用再进行赘述了,伴随着百度文心一言打响国内商业大模型第一枪,华为盘古,阿里通义千问,智谱ChatGLM,科大讯飞星火等国内公司纷纷开始布局。 另一方面由于众所周知的政策原因,和如火如荼层

    2024年02月06日
    浏览(62)
  • 2023清华大学go学习笔记

    go(又称Golang) 应用领域: go服务器 go分布式/云计算 区块链工程师 360开源的日志搜索系统 qihoo360/poseidon 开发团队: 罗伯特·格瑞史莫(Robert Griesemer),罗勃派克(Rob) Pike)及肯·汤曾逊(Ken Thompson)于2007年9月开始设计Go,稍后lan LanceTaylor、Russ Cox0入项目. Rcoect CicepeeneR9D Pae Go语言发展

    2024年02月05日
    浏览(56)
  • 谷歌将发布全新搜索引擎,你期待吗?

    Google一身自带AI属性的新搜索最首要的目标并非急于取代传统搜索引擎,或者说彻底打败ChatGPT,而是能够用全新的产品说服用户,变得与竞争对手同样“强大、能力出众以及顺应AI潮流”。 对于Google而言,搜索就是命脉。Google每年的收入有八成来自广告业务,而广告收入的八

    2024年02月05日
    浏览(55)
  • 行业报告 | 清华大学AIGC发展研究1.0震撼发布!(技术+未来篇)

    文 | BFT机器人   深度学习进化史:知识变轨 风起云涌 已发生的关键步骤: 人工神经网络的诞生 反向传播算法的提出 GPU的使用 大数据的出现 预训练和迁移学习 生成对抗网络 (GAN) 的发明 强化学习的成功应用 自然语言处理的突破 即将发生的关键步骤: 通用人工智能 (AGI) 全维

    2024年02月15日
    浏览(36)
  • Bing AI:探索人工智能搜索引擎Bing Chat工具

    Microsoft 更新了其搜索引擎 Bing,采用了由 OpenAI 的 GPT-4 模型提供支持的人工智能 (AI) 技术。 这意味着您现在可以与 Bing 聊天。而且,除了常规的链接列表外,搜索引擎还可以汇总互联网上的数据来回答您的问题。 喜欢这个: 让我们深入了解什么是必应 AI,以及如何使用它

    2024年01月19日
    浏览(101)
  • 安全牛《数据分类分级自动化建设指南》发布|美创入选代表厂商,分享智能化探索

    近日,安全牛发布《数据分类分级自动化建设指南》研究报告,对数据分类分级的主要技术、实施要点、选型指导、发展趋势等展开深入探讨,为各行业数据分类分级自动化工作落地提供帮助与指引。 美创科技被列为代表推荐厂商, 落地案例—农商行基于分类分级的数据安

    2024年02月03日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包