论文笔记——chatgpt评估+

这篇具有很好参考价值的文章主要介绍了论文笔记——chatgpt评估+。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. chatgpt 效果评估:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness

文章简介

论文是从开放域和限定域两个角度对chatGPT的**performance、可解释性、校准性(calibration)和可信性(faithfulness)**进行了评估(assessment)。(performance、explainability、calibration、faithfulness四个维度进行测评的)
以上评估是杂7个细粒度知识抽取任务中进行的。

四个维度:

  1. performance(表现):chatgpt在不同任务下的性能表现。
  2. explainability(可解释性):chatgpt在self-check和human-check下的可解释性。

ChatGPT和领域专家高度认可ChatGPT给出的理由,大多数数据集在Standard-IE和OpenIE设置中获得了超过90%的合理分数
与人的评价相比,ChatGPT在为其预测提供的理由方面显示出很高的信心。ChatGPT displays a high level of confidence in the reasons provided for its predictions when compared with human evaluation
当ChatGPT为一个预测提供了合理的解释时,ChatGPT和人类的评价之间有很高的一致性。

  1. calibration(校准性):校准性是用来判断chatgpt性能的不确定性的评价手段。一个好的calibratedclassifier是应该能够预测模型给出的判断的准确性(A properly calibrated classifier should have predictive scores that accurately reflect the probability of correctness)

虽然ChatGPT在标准-IE设置中的表现比基于BERT的同类产品差,但它在正确和错误的预测中都表现出过度自信。
ChatGPT倾向于产生不容易代表真实概率的置信度。ChatGPT tends to produce confidences that do not represent true probabilities easily.

  1. faithfulness(可信性):ChatGPT的解释的忠实性对于确保其可信度非常重要 (The faithfulness of ChatGPT’s explanation is important to ensure its trustworthine)。

ChatGPT’s decision-making process primarily relies on the input of the original text. ChatGPT的决策过程主要依赖于原文的输入.

7个知识抽取任务

实体类型判断 命名实体识别 关系分类 关系抽取 事件检测 事件论元抽取 事件抽取

文章结论

  1. 在standard IE情况下,ChatGPT的性能在大多数情况下无法与基线模型和SOTA方法相比。
  2. ChatGPT在相对简单的IE任务中(实体类型判断)表现良好,但在更复杂和具有挑战性的任务中(关系抽取、事件抽取)却很吃力。
  3. chatgpt在standard IE知识抽取任务中,表现略差于在openIE任务中的表现。
  4. chatgpt可以用来辅助标注工作。(我们的研究结果表明,ChatGPT是一个合格的答案候选生成器,适用于标准-IE设置下的特定任务。Our findings suggest that ChatGPT is a competent answer candidate generator for a given task under the Standard-IE setting.)

2. 事件抽取: OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction

论文核心

论文将event extraction转化为了word-word relation recognition任务。(参考了relation extraction任务的方法)

论文面向任务是EE: EE任务的核心是需要抽取出trigger和event的arguments。
在解决EE任务时,将可能的关系定义为了以下几类:
S-T 表示head和tail boundary words of a trigger.
S-A 表示head和tail boundary words of a argument
R-S, R-O, R-T, and R-P 表示 trigger Word和argument Word之间的关系。(S表示subject、O表示object、T表示target、P表示proportion)——也就是事件论元和事件trigger之间的关系。

论文方法

方法上还是以tagging scheme 为主,是以table filling方式实现的event extraction。
论文笔记——chatgpt评估+
注意公式中的字的写法

第一步是使用bert 得到sentence 的embedding

论文笔记——chatgpt评估+

第二步使用attention module和 gate module 得到每种event type的contextual representation. (一个由注意模块和两个门融合模块组成的自适应事件融合层被用来为每个事件类型获得偶发的环境表征。)

  1. 先使用attention mechanism 得到了每个Word的 event type下的embedding。E表示event type的embedding。论文笔记——chatgpt评估+
  2. 融合target event type的embedding和last gate module的output。
    论文笔记——chatgpt评估+
    论文笔记——chatgpt评估+

第三步,使用table filling实现relation的classification。是将argument和trigger作为的span,然后做了一次span 分类。然后,对argument做了span的分类,判断argument的role。 在计算Word-Word pair之间的关系得分时,使用的是** dot product**.
论文笔记——chatgpt评估+文章来源地址https://www.toymoban.com/news/detail-510289.html

到了这里,关于论文笔记——chatgpt评估+的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 聚类效果评估

    目录 1.轮廓系数(Silhouette Coefficient) 1.1 为什么轮廓系数可以评价聚类效果的好坏? 1.2 平均轮廓系数 2. 其他聚类质量函数 2.1方差比准则(Variance Ratio Criterion, VRC)  2.2 戴维斯-博尔丁指数(Davies-Bouldin指数,DB指数)   评价聚类结果效果的指标通常有:误差平方和(Sum of the Square

    2024年02月09日
    浏览(29)
  • [论文笔记] chatgpt DeepSpeed-chat 简介

    DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub 🐕 DeepSpeed-Chat:简单,快速和负担得起的RLHF训练的类chatgpt模型 🐕 一个快速、经济、可扩展和开放的系统框架,用于实现端到端的强化学习人类反馈(RLHF)训练体验,以在所有尺度上生成高质量的类chat

    2024年02月02日
    浏览(63)
  • Visual ChatGPT原理解读——大模型论文阅读笔记四

    论文:https://arxiv.org/abs/2303.04671 代码:https://github.com/microsoft/TaskMatrix 如图所示,用户上传一张黄花的图像并输入一个复杂的语言指令“请根据该图像的预测深度生成一朵红花,然后逐步使其像卡通一样”。 在交互管理器的帮助下,Visual ChatGPT 开始了相关视觉基础模型的执行

    2024年02月09日
    浏览(31)
  • [论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)

    Proximal Policy Optimization (PPO)         避免较多的策略更新。 根据经验,训练期间较小的策略更新更有可能收敛到最优解决方案。 在策略更新中,太大的一步可能会导致“掉下悬崖”(得到一个糟糕的策略),并且有很长时间甚至没有可能恢复。         所以在PPO中,我们

    2024年02月01日
    浏览(29)
  • MATLAB - 评估拟合优度、评价拟合效果

    用一个或多个模型拟合数据后,您应该评估拟合的好坏。第一步应该是目测 \\\"曲线拟合器 \\\"应用程序中显示的拟合曲线。除此之外,工具箱还提供了这些方法来评估线性和非线性参数拟合的拟合优度: 拟合优度统计 残差分析 置信度和预测边界 正如统计文献中常见的那样,\\\"拟

    2024年03月28日
    浏览(27)
  • [论文笔记] chatgpt系列 2.1 DeepSpeed-chat 简介

    DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub 🐕 DeepSpeed-Chat:简单,快速和负担得起的RLHF训练的类chatgpt模型 🐕 一个快速、经济、可扩展和开放的系统框架,用于实现端到端的强化学习人类反馈(RLHF)训练体验,以在所有尺度上生成高质量的类chat

    2024年02月09日
    浏览(205)
  • 【论文笔记】——从transformer、bert、GPT-1、2、3到ChatGPT

    18年有bert和gpt这两个语言模型,分别源自transformer的编码器和解码器,都是无监督方式训练的 GPT-1用的是无监督预训练+有监督微调 GPT-2用的是纯无监督预训练。提升了网络层数和训练数据量 GPT-3沿用了GPT-2的纯无监督预训练,但是数据大了好几个量级 InstructGPT在GPT-3上用来自人

    2024年02月09日
    浏览(33)
  • 论文笔记:AugGPT: Leveraging ChatGPT for Text Data Augmentation

    文本数据增强是克服许多自然语言处理(NLP)任务中样本量有限的挑战的有效策略。这一挑战在小样本学习场景中尤为突出,其中目标域中的数据通常更加稀缺且质量较低。缓解此类挑战的一种自然且广泛使用的策略是执行数据增强,以更好地捕获数据不变性并增加样本量。

    2024年02月11日
    浏览(33)
  • [论文笔记] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)

    Proximal Policy Optimization (PPO)         避免较多的策略更新。 根据经验,训练期间较小的策略更新更有可能收敛到最优解决方案。 在策略更新中,太大的一步可能会导致“掉下悬崖”(得到一个糟糕的策略),并且有很长时间甚至没有可能恢复。         所以在PPO中,我们

    2024年02月03日
    浏览(37)
  • Chatgpt论文笔记——GPT1详细解读与可运行的代码

    论文:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 时间:2018年6月 贡献: 提出了大规模数据上无监督预训练然后在目标任务上有监督finetune的范式。 当时由于NLP领域不存在像图像领域中ImageNet那样百万级别标注的数据(并且图像的像素包含了比句子

    2024年02月11日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包