GPT-NER:通过大型语言模型的命名实体识别

这篇具有很好参考价值的文章主要介绍了GPT-NER:通过大型语言模型的命名实体识别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

讲在前面,chatgpt出来的时候就想过将其利用在信息抽取方面,后续也发现了不少基于这种大语言模型的信息抽取的论文,比如之前收集过的:

  • https://github.com/cocacola-lab/GPT4IE
  • https://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extraction
  • https://github.com/cocacola-lab/ChatIE
  • Unified Text Structuralization with Instruction-tuned Language Models

接下来继续介绍另一篇论文。

GPT-NER:通过大型语言模型的命名实体识别

GPT-NER: Named Entity Recognition via Large Language Models

https://arxiv.org/pdf/2304.10428v1.pdf

https://github.com/ShuheWang1998/GPT-NER

Part1前言

为什么使用大语言模型在NER上的表现仍然明显低于普遍的基线?

由于NER和LLMs这两个任务之间的差距:前者本质上是一个序列标记任务,而后者是一个文本生成模型。

怎么解决上述的问题呢?

  • GPT-NER通过将序列标签任务转换 为一个可以被LLMs轻松适应的生成任务来弥补这一差距,例如, 在输入文本Columbus是一个城市中寻找位置实体的任务被转换为生成文本序列@@Columbus##是一个城市,其中特殊标记@@##标志着要提取的实体。
  • 为了有效地解决LLMs的幻觉问题,即LLMs有一个强烈的倾向,即过度自信地将NULL输入标记为实体,我们提出了一个自我验证策略,即提示LLMs询问自己所提取的实体是否符合标记的实体标签。

Part2介绍

GPTNER遵循语境学习的一般范式,可以分解为三个步骤:

  • (1)构建提示:对于一个给定的输入句子X,我们为X构建一个提示(用Prompt(X) 来表示);
  • (2)将提示输入到大语言模型得到生成的文本序列W = {w1 ,..., wn };
  • (3)将文本序列W转化为实体标签序列,以获得最终的结果。

如图所示:第一句话:你是一个优秀的语言学家;第二句话:任务是从给定的句子中标记xxx实体。接下来是一些例子,然后给树了一些例子。最后再输入自己想要提取实体的句子得到结果。很容易发现,每次只能提取一种实体,因此要提取出所有的实体,必须遍历实体列表。例如GPT-3,对提示的长度有 一个硬性的限制(例如GPT-3的4096个tokens)。鉴于这种有限的标记数量,我们不可能在一个提示中包括对所有实体类型的描述和演示。

1怎么提供实例样本?

如图所示:

  • 1、一个已经训练好的ner模型提取训练数据中的实体,并为每一个实体构建(实体,句子)对。
  • 2、将句子输入的模型中并获取实体的表示。
  • 3、通过knn找到和实体向量最接近的几个邻居,将得到的句子视为样例。

2怎么进行自我验证?

Prompt:
I am an excellent linguist. The task is to label location entities in the given sentence.
Below are some examples.
Input:Columbus is a city
Output:@@Columbus## is a city
Input:Rare Hendrix song sells for $17
Output:
GPT-3 Output:
Rare @@Hendrix## song sells for $17

过度预测是指将不是实体的预测为实体。如上面的例子:Hendrix被识别为一个location实体,这显然是不对的。自我验证策略:给定一个由LLM提取的实体,我们要求LLM进一步验证该提取的实体是否正确,用是或否回答。比如:

“The task is to verify whether the word is a location entity extracted from the given sentence”
(1) “The input sentence: Only France and Britain backed Fischler’s proposal”,
(2) “Is the word "France" in the input sentence a location entity? Please answer with yes or no”.
(3) Yes

同样的,也是根据之前的策略选择样例。

Part3实验

  • 模型:GPT-3 (Brown et al., 2020) (davinci-003)
  • 最大长度:512
  • 温度:0
  • top_p:1
  • frequency_penalty:0
  • presence_penalty:0
  • best_of:1

总结一下,利用大语言模型进行信息抽取,大多数都是采用这种类似问答的方式进行的,也就是分为多个步骤。文章来源地址https://www.toymoban.com/news/detail-420381.html

到了这里,关于GPT-NER:通过大型语言模型的命名实体识别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 调用阿里云API接口实现电商领域命名实体识别NER

    阿里云简介 阿里云是全球领先的云计算及人工智能科技公司,成立于 2009 年,为 200 多个国家和地区的企业、开发者和政府机构提供服务。阿里云提供了一系列的云计算服务,包括服务器租赁、云数据库、云存储、人工智能等,帮助企业和个人更高效地管理和运行他们的在线

    2024年04月10日
    浏览(29)
  • 【网安AIGC专题11.1】(顶刊OpenAI API调用)CodeX(比chatgpt更好)用于命名实体识别NER和关系抽取RE:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)

    这次该我汇报啦 许愿明天讲的顺利,问的都会 讲+提问1个小时 但是在讨论的过程中,感觉逐步抽丝挖掘到了核心原理: 之前的理解:借助代码-LLM中的编码丰富结构化代码信息 最后的理解:如果能设置一个方法,让大模型能对自己输出的有所理解,那么效果会更好。这篇论

    2024年02月05日
    浏览(60)
  • 【LLM GPT】李宏毅大型语言模型课程

    怎么学习?——给定输入和输出: 但是这样做不现实,因为这样输入-输出需要成对的资料,而chatgpt 成功解决了这一个难题。 chatgpt不需要成对的资料,只需要一段有用的资料,便可以自己学习内容,如下: 初代和第二代gpt 第二代到第三代 gpt3还会写代码 其性能表现 但是

    2024年02月10日
    浏览(32)
  • 【LLM GPT】大型语言模型 理解和实现

    怎么学习?——给定输入和输出: 但是这样做不现实,因为这样输入-输出需要成对的资料,而chatgpt 成功解决了这一个难题。 chatgpt不需要成对的资料,只需要一段有用的资料,便可以自己学习内容,如下: 初代和第二代gpt 第二代到第三代 gpt3还会写代码 其性能表现 但是

    2024年02月09日
    浏览(43)
  • 论文浅尝 | 利用对抗攻击策略缓解预训练语言模型中的命名实体情感偏差问题...

    笔记整理:田家琛,天津大学博士,研究方向为文本分类 链接:https://ojs.aaai.org/index.php/AAAI/article/view/26599 动机 近年来,随着预训练语言模型(PLMs)在情感分类领域的广泛应用,PLMs中存在的命名实体情感偏差问题也引起了越来越多的关注。具体而言,当前的PLMs基于神经上下

    2024年02月10日
    浏览(35)
  • 一文看懂多模态大型语言模型GPT-4

    近日,OpenAI发布了最新版的生成预训练模型GPT-4。据官方介绍,最新一代的模型是一个大模型,性能比CPT-3.5强悍很多,不仅仅是接受图像、文本、代码等的输入输出,更多的是在很多专业领域表现出人类的水准水;与上一代不同的是它的核心技术是基于Transformer的自回归语言

    2023年04月08日
    浏览(29)
  • 8大伦理考量:大型语言模型(LLM)如GPT-4

    大语言模型(LLM)如ChatGPT、GPT-4、PaLM、LaMDA等,具有生成和分析类人文本的能力。然而,它们也可能会产生有害内容,如仇恨言论、极端主义宣传、种族主义或性别歧视语言等,对特定个人或群体造成伤害。尽管LLM本身并不具有偏见或危害性,但它们所训练的数据可能反映了社

    2024年03月22日
    浏览(33)
  • 对齐大型语言模型与人类偏好:通过表示工程实现

    强化学习表现出相当复杂度、对超参数的敏感性、在训练过程中的不稳定性,并需要在奖励模型和价值网络中进行额外的训练,导致了较大的计算成本。为了解决RL方法带来的上述挑战,提出了几种计算上轻量级的替代方案,在这些替代方案中,两个突出的范例包括对比学习

    2024年01月24日
    浏览(27)
  • 在 Google Colab 中微调用于命名实体识别的 BERT 模型

    命名实体识别是自然语言处理(NLP)领域的一项主要任务。它用于检测文本中的实体,以便在下游任务中进一步使用,因为某些文本/单词对于给定上下文比其他文本/单词更具信息性和重要性。这就是 NER 有时被称为信息检索的原因,即从文本中提取相关并将其分类为所

    2024年02月11日
    浏览(36)
  • 【NLP】一项NER实体提取任务

            从文本中提取实体是一项主要的自然语言处理 (NLP) 任务。由于深度学习(DL)的最新进展使我们能够将它们用于NLP任务,并且与传统方法相比,在准确性上产生了巨大的差异。         我试图使用深度学习和传统方法从文章中提取信息。结果是惊人的,因为

    2024年02月16日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包