从零开始的知识图谱生活，构建一个百科知识图谱，完成基于Deepdive的知识抽取、基于ES的简单语义搜索、基于 REfO 的简单KBQA-Toy模板网

这篇具有很好参考价值的文章主要介绍了从零开始的知识图谱生活，构建一个百科知识图谱，完成基于Deepdive的知识抽取、基于ES的简单语义搜索、基于 REfO 的简单KBQA。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

从零开始的知识图谱生活，构建一个百科知识图谱，完成基于Deepdive的知识抽取、基于ES的简单语义搜索、基于 REfO 的简单KBQA,项目大全：提升自身的硬实力,知识图谱,elasticsearch,人工智能,智能问答,自然语言处理,原力计划

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实战掌握技能，助力用户更好利用 CSDN 平台，自主完成项目设计升级，提升自身的硬实力。

专栏订阅：项目大全提升自身的硬实力
[专栏详细介绍：项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）

从零开始的知识图谱生活，构建一个百科知识图谱，完成基于Deepdive的知识抽取、基于ES的简单语义搜索、基于 REfO 的简单KBQA

个人入门知识图谱过程中的学习笔记，算是半教程类的，指引初学者对知识图谱的各个任务有一个初步的认识。目前暂无新增计划。

1.简介

目标是包含百度百科、互动百科、中文wiki百科的知识，千万级实体数量和亿级别的关系数目。目前已完成百度百科和互动百科部分，其中百度百科词条4,190,390条，互动百科词条4,382,575条。转换为RDF格式得到三元组 128,596,018个。存入 neo4j中得到节点 16,498,370个，关系 56,371,456个，属性 61,967,517个。

项目码源见文章顶部或文末

https://download.csdn.net/download/sinat_39620217/87988980文章来源地址https://www.toymoban.com/news/detail-618361.html

目录
- 百度百科与互动百科的知识抽取
  - 半结构化数据
    - 百度百科爬虫
    - 互动百科爬虫
  - 非结构化数据
    - 微信公众号爬虫
    - 虎嗅网爬虫
- 非结构化文本的知识抽取
  - 制作类似于NYT的远程监督学习语料–baidu_6w
  - 神经网络关系抽取
- 知识存储
  - D2RQ 的使用
  - Jena 的使用
- 知识融合
  - Silk 实战
- KBQA
  - 基于 REfO 的简单KBQA
- 语义搜索
  - 基于elasticsearch 的简单语义搜索支持实体检索、实体属性检索和条件检索

2.获取数据

2.1 半结构化数据

半结构化数据从百度百科和互动百科获取，采用scrapy框架，目前电影领域和通用领域两类。

通用领域百科数据：百度百科词条4,190,390条，互动百科词条3,677,150条。爬取细节请见从零开始构建知识图谱（七）百科知识图谱构建（一）百度百科的知识抽取
电影领域: 百度百科包含电影22219部，演员13967人，互动百科包含电影13866部，演员5931 人。项目详细介绍请见从零开始构建知识图谱（一）半结构化数据的获取

2.2 非结构化数据

非结构化数据主要来源为微信公众号、虎嗅网新闻和百科内的非结构化文本。

微信公众号爬虫获取公众号发布文章的标题、发布时间、公众号名字、文章内容、文章引用来源，对应 ie/craw/weixin_spider。虎嗅网爬虫获取虎嗅网新闻的标题、简述、作者、发布时间、新闻内容，对应 ie/craw/news_spider。

3. 非结构化文本的知识抽取

3.1 基于Deepdive的知识抽取

Deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习，从非结构化的文本中抽取结构化的关系数
据。本次实战基于OpenKG上的[支持中文的deepdive：斯坦福大学的开源知识抽取工具（三元组抽取）](http://www.openkg.cn/ dataset/cn-deepdive)，我们基于此，抽取电影领域的演员-电影关系。

详细介绍请见从零开始构建知识图谱（五）Deepdive抽取演员-电影间关系