知识图谱(Knowledge Graph)根本概念

这篇具有很好参考价值的文章主要介绍了知识图谱(Knowledge Graph)根本概念。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录
  • 知识图谱
    • 定义
    • 基础概念:
    • 知识图谱构建的关键技术
      • 知识图谱的构建
      • 实体命名识别
      • 知识抽取
      • 实体统一
      • 指代消解
    • 知识图谱的存储
      • RDF和图数据库的主要特点区别
    • 知识图谱能干什么
      • 反欺诈
      • 不一致性验证
      • 客户失联管理
      • 知识推理
    • 常见图数据库

2012年5月17日,Google 正式提出了知识图谱(Knowledge Graph)的概念,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验。

假设我们想知道 “王健林的儿子” 是谁,百度或谷歌一下,搜索引擎会准确返回王思聪的信息,说明搜索引擎理解了用户的意图,知道我们要找 “王思聪”,而不是仅仅返回关键词为 “王健林的儿子” 的网页:
知识图谱(Knowledge Graph)根本概念

知识图谱

  • 信息是指外部的客观事实。举例:这里有一瓶水,它现在是7°。
  • 知识是对外部客观规律的归纳和总结。举例:水在零度的时候会结冰。
    “客观规律的归纳和总结” 似乎有些难以实现。Quora 上有另一种经典的解读,区分 “信息” 和 “知识” 。
    知识图谱(Knowledge Graph)根本概念

定义

知识图谱,本质上,是一种揭示实体之间关系的语义网络,是一种基于图的数据结构。
是一种结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。它的基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构 。
语义网络(Semantic Network)是上个世纪五六十年代所提出的一种知识表示形式。如图:猫是一种哺乳动物;脊椎是哺乳动物的一部分。然而,语义网络由于缺少标准,其比较难应用于实践。

基础概念:

通俗定义:知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,因此知识图谱提供了从“关系”的角度去分析问题的能力。

  • 由节点(Point)和边(Edge)组成的网状的知识结构,也就是数据结构中的图(Graph)。
  • 每个节点表示现实世界中存在的实体Entity,每条边为实体与实体之间的关系
  • 每个节点代表的实体还存在着一些属性,比如“梅西”这个节点,可以把生日、国籍、球队等一些基本信息作为属性。
  • 知识图谱由一条条知识组成,每条知识是一个基本组成单位,表示为一个三元组:(实体,关系,实体)或者(实体,属性,属性值)
  • 可以用RDF形式化地表示这种三元关系,但RDF的缺点在于表达能力有限,无法区分类和对象,也无法定义和描述类的关系/属性。RDFS和OWL这两种技术解决了RDF表达能力有限的缺点。具体不展开了。

基本的数据结构表达式是:G=(V,E),V=vertex(节点),E=edge(边)
实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。

知识图谱(Knowledge Graph)根本概念
由上图,可以看到实体有地名和人;大理属于云南、小明住在大理、小明和小秦是朋友,这些都是实体与实体之间的关系。

知识图谱构建的关键技术

知识图谱构建的过程中,最主要的一个步骤就是把数据从不同的数据源中抽取出来,然后按一定的规则加入到知识图谱中,这个过程我们称为知识抽取
数据源的分为两种:

  • 结构化的数据:结构化的数据是比较好处理的,难点在于处理非结构化的数据
  • 非结构化的数据:处理非结构化数据通常需要使用自然语言处理技术:实体命名识别、关系抽取、实体统一、指代消解等
知识图谱(Knowledge Graph)根本概念
上图左边的文案就是一个非结构化的文本数据,需要经过一系列的技术处理,才能转化为右边的知识图谱。

具体是怎么实现的呢,接下来一一讨论。

知识图谱的构建

知识图谱(Knowledge Graph)根本概念

知识图谱(Knowledge Graph)根本概念

实体命名识别

知识图谱(Knowledge Graph)根本概念
提取文本中的实体,并对每个实体进行分类或打标签,比如把文中“1984年12月30日”记为“时间”类型;“克利夫兰骑士”和“迈阿密热火”记为“球队”类型,这个过程就是实体命名。

知识抽取

知识抽取主要是面向开放的链接数据,通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。知识抽取有三个主要工作:

  • 实体抽取:在技术上我们更多称为 NER(named entity recognition,命名实体识别),指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确、召回率等将直接影响到知识库的质量。因此,实体抽取是知识抽取中最为基础与关键的一步;

  • 关系抽取:目标是解决实体间语义链接的问题,早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后,实体间的关系模型逐渐替代了人工预定义的语法与规则
    知识图谱(Knowledge Graph)根本概念
    关系抽取是把实体之间的关系抽取出来的一项技术,其中主要是根据文本中的一些关键词,如“出生”、“在”、“转会”等,我们就可以判断詹姆斯与地点俄亥俄州、与迈阿密热火等实体之间的关系。

  • 属性抽取:属性抽取主要是针对实体而言的,通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系,因此可以将实体属性的抽取问题转换为关系抽取问题。

实体统一

知识图谱(Knowledge Graph)根本概念
在文本中可能同一个实体会有不同的写法,比如说“LBJ”就是詹姆斯的缩写,因此“勒布朗詹姆斯”和“LBJ”指的就是同一个实体,实体统一就是处理这样问题的一项技术。

指代消解

知识图谱(Knowledge Graph)根本概念
指代消解跟实体统一类似,都是处理同一个实体的问题。比如说文本中的“他”其实指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出这些代词,都指的是哪个实体。
指代消解和实体统一是知识抽取中比较难的环节。

知识图谱的存储

知识图谱主要有两种存储方式:

  • RDF:RDF一个重要的设计原则是数据的易发布以及共享,另外,RDF以三元组的方式来存储数据而且不包含属性信息。
  • 图数据库:图数据库主要把重点放在了高效的图查询和搜索上,一般以属性图为基本的表示形式,所以实体和关系可以包含属性。

RDF和图数据库的主要特点区别

RDF

  • 存储三元组
  • 标准的推理引擎
  • W3C标准
  • 易于发布数据
  • 多数为学术界场景

图数据库

  • 关系和节点可以带属性
  • 没有标准的推荐引擎
  • 图的遍历效率高
  • 事务管理
  • 基本为工业界场景

知识图谱能干什么

通用知识图谱:不太涉及行业知识及专业内容,一般是解决科普类、常识类等问题。主要应用于面向互联网的搜索、推荐、问答等业务场景。比如,搜索李小龙有几部电影,战狼2的导演是谁等。
行业知识图谱:针对某个垂直行业或细分领域的深入研究而定制的版本,主要是解决当前行业或细分领域的专业问题。一些应用如下:

  • 企业服务:比如企业最终控股人查询
  • 生活服务领域:比如美团搜索“10人聚餐,带宝宝,安静一点的餐厅”,就需要找到“有大桌”“有包间”、“有儿童椅”等标签。比如菜品构建知识体系。
  • 导航POI知识图谱:支持用户点线面导航搜索需求,支持点线面的方位、距离、包含关系等:万达广场附近的充电桩在哪,广州塔那一片有商场吗?国贸楼里有7-11吗?

反欺诈

假设银行要借钱给一个人,那要怎么判断这个人是真实用户还是欺诈的呢?
知识图谱(Knowledge Graph)根本概念
我们需要以人为核心,展开一系列的数据构建,比如说用户的基本信息、借款记录、工作信息、消费记录、行为记录、网站浏览记录等等。把这些信息整合到知识图谱中。从而整体进行预测和评分,用户欺诈行为的概率有多大。当然这个预测是需要通过机器学习,得到一个合理的模型,模型中可能会包括消费记录的权重、网站浏览记录的权重等等信息。

不一致性验证

知识图谱(Knowledge Graph)根本概念
比如说不同的两个借款人,却填写了同一个电话号码,那说明这两个人中至少有一个是可疑的了,这时就需要重点关注了。
知识图谱(Knowledge Graph)根本概念
更复杂点的,可能需要知识图谱通过一些关系去推理了。比如说“借款人”跟小明和小秦都是母子关系,按推理的话小明跟小秦应该是兄弟关系,而在知识图谱上显示的是朋友关系,就有可能有异常了,因此也需要重点关注。

客户失联管理

知识图谱(Knowledge Graph)根本概念
如果借款人失联了,通过知识图谱,是不是可以联系他的朋友,或兄弟,甚至是兄弟的妻子,去追踪失联人。
因此在失联的情况下,知识图谱可以挖掘更多失联人的联系人,从而提高催收效率。

知识推理

知识图谱(Knowledge Graph)根本概念
如上左图(注意这里的箭头方向),小秦是大秦的儿子,大秦是老秦的儿子,从这这样的关系,我们就可以推理出,小秦是老秦的孙子,这样就能使知识图谱更加完善了。
知识图谱(Knowledge Graph)根本概念
如上左图,小明在腾讯上班,小秦也在腾讯上班,从这样的关系,我们可以推理出,小明和小秦是同事关系。

推理能力其实就是机器模仿人的一种重要的能力,可以从已有的知识中发现一些隐藏的知识。当然这样的能力离不开深度学习,而随着深度学习的不断成熟,我相信知识图谱的能力也会越来越强大。

在此就介绍完了知识图谱的一些简单知识,在写这篇文章的同时,也参考了很多业界优秀大佬的文章,感谢各位大佬的无私分享。文章来源地址https://www.toymoban.com/news/detail-640056.html

常见图数据库

  • Neo4j:是一个流行的图形数据库,它是开源的,Neo4j基于Java实现,兼容ACID特性,也支持其他编程语言,如Ruby和Python。
  • Amazon Neptune:全托管的图数据库,支持多种图数据模型和查询语言。是一种快速、可靠、完全管理的图形数据库服务,可以轻松构建和运行与高度连接的数据集一起工作的应用程序
  • JanusGraph:分布式图数据库,支持多种后端存储和多种查询语言。其本身专注于紧凑图序列化、丰富图数据建模、高效的查询执行
  • OrientDB:多模式的NoSQL数据库,支持面向文档和面向图的数据模型和查询语言。兼具文档数据库的灵活性和图形数据库管理链接能力的可深层次扩展的文档-图形数据库管理系统。可选无模式、全模式或混合模式下。支持许多特性,诸如ACID事务、快速索引,原生和SQL查询功能。可以JSON格式导入、导出文档。若不执行昂贵的JOIN操作的话,如同关系数据库可在几毫秒内可检索数以百记的链接文档图。
  • ArangoDB:是一个基于W3c标准的为资源描述框架构建的图形数据库。它为处理链接数据和Web语义而设计,支持SPARQL、RDFS++和Prolog。多模式的NoSQL数据库,支持面向文档、键值和图的数据模型和查询语言。
  • GraphDB:是德国sones公司在.NET基础上构建的。Sones公司于2007年成立,近年来陆续进行了几轮融资。GraphDB托管在Windows Azure平台上。

到了这里,关于知识图谱(Knowledge Graph)根本概念的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据知识图谱解码:从核心概念到技术实战

    知识图谱是近年来人工智能和数据科学领域的焦点。本文深入探索了知识图谱的核心概念、发展历程、研究内容以及其在表示、存储、获取、构建和推理方面的技术细节。结合Python和PyTorch示例代码,文章旨在为读者提供一个全面、深入且实用的知识图谱概览,帮助广大技术爱

    2024年02月04日
    浏览(41)
  • KGAT: Knowledge Graph Attention Network for Recommendation

    [1905.07854] KGAT: Knowledge Graph Attention Network for Recommendation (arxiv.org) LunaBlack/KGAT-pytorch (github.com) 目录 1、背景 2、任务定义 3、模型 3.1 Embedding layer 3.2 Attentive Embedding Propagation Layers 3.3 Model Prediction 3.4 Optimization 4、部分代码解读 4.1 数据集 4.2 数据集的处理 4.3 模型 4.4 模型训练 C

    2024年02月16日
    浏览(41)
  • Knowledge Graph Prompting for Multi-Document Question Answering

    本文是LLM系列文章,针对《Knowledge Graph Prompting for Multi-Document Question Answering》的翻译。 大型语言模型的“预训练、提示、预测”范式在开放领域问答(OD-QA)中取得了显著的成功。然而,很少有工作在多文档问答(MD-QA)的场景中探索这种范式,这项任务需要彻底理解不同文

    2024年02月09日
    浏览(41)
  • 【论文笔记】KDD2019 | KGAT: Knowledge Graph Attention Network for Recommendation

    为了更好的推荐,不仅要对user-item交互进行建模,还要将关系信息考虑进来 传统方法因子分解机将每个交互都当作一个独立的实例,但是忽略了item之间的关系(eg:一部电影的导演也是另一部电影的演员) 高阶关系:用一个/多个链接属性连接两个item KG+user-item graph+high orde

    2024年02月16日
    浏览(41)
  • KG-BERT: BERT for Knowledge Graph Completion 2019ACL

    把BERT用在知识图谱补全上 提出KG-BERT模型,在预训练好的BERT基础上继续fine-tuning。 传统的KGC方法一般依赖于KGE,而KGE往往通过将KG中的三元组关系投影到某个表示空间中,然后使用打分函数对三元组的合理性进行评估,在用基于正负样本的对比进行模型的训练,而这个表示空

    2024年02月07日
    浏览(49)
  • 【论文笔记】Knowledge Is Flat: A Seq2Seq Generative Framework for Various Knowledge Graph Completion

    arxiv时间: September 15, 2022 作者单位i: 南洋理工大学 来源: COLING 2022 模型名称: KG-S2S 论文链接: https://arxiv.org/abs/2209.07299 项目链接: https://github.com/chenchens190009/KG-S2S 以往的研究通常将 KGC 模型与特定的图结构紧密结合,这不可避免地会导致两个缺点 特定结构的 KGC 模型互不兼容 现

    2024年01月19日
    浏览(37)
  • 生成式AI - Knowledge Graph Prompting:一种基于大模型的多文档问答方法

    大型语言模型(LLM)已经彻底改变了自然语言处理(NLP)任务。它们改变了我们与文本数据交互和处理的方式。这些强大的AI模型,如OpenAI的GPT-4,改变了理解、生成人类类似文本的方式,导致各种行业出现了众多突破性应用。 LangChain是一个用于构建基于大型语言模型(如G

    2024年02月20日
    浏览(37)
  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    原文链接: Making Large Language Models Perform Better in Knowledge Graph Completion 基于大语言模型(LLM)的知识图补全(KGC) 旨在利用 LLM 预测知识图谱中缺失的三元组 ,并丰富知识图谱,使其成为更好的网络基础设施,这可以使许多基于网络的自动化服务受益。然而,基于LLM的KGC研究有

    2024年01月23日
    浏览(48)
  • 论文阅读《ICDE2023:Relational Message Passing for Fully Inductive Knowledge Graph Completion》

    论文链接 工作简介 在知识图谱补全 (KGC) 中,预测涉及新兴实体和 / 或关系的三元组, 这是在学习 KG 嵌入时看不到的,已成为一个关键挑战。 带有消息传递的子图推理是一个很有前途和流行的解决方案。 最近的一些方法已经取得了很好的性能,但它们 (1) 通常只能预测单独

    2024年02月07日
    浏览(41)
  • Text-Augmented Open Knowledge Graph Completion viaPre-Trained Language Models

    开放知识图谱(KG)完成的任务是从已知的事实中得出新的发现。增加KG完成度的现有工作需要(1)事实三元组来扩大图推理空间,或(2)手动设计提示从预训练的语言模型(PLM)中提取知识,表现出有限的性能,需要专家付出昂贵的努力。为此,我们提出了 TAGREAL ,它自动生成高质量

    2024年02月13日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包