使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA

这篇具有很好参考价值的文章主要介绍了使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目前基于大模型的信息检索有两种方法,一种是基于微调的方法,一种是基于 RAG 的方法。

信息检索和知识提取是一个不断发展的领域,随着大型语言模型(LLM)和知识图的出现,这一领域发生了显着的变化,特别是在多跳问答的背景下。

接下来我们继续深入,跟着文章完成一个项目,该项目利用 Neo4j 矢量索引和 Neo4j 图数据库的强大功能来实现检索增强生成系统,旨在为用户查询提供精确且上下文丰富的答案。

该系统采用向量相似性搜索来检索非结构化信息,同时访问图数据库来提取结构化数据,以确保响应不仅全面,而且锚定在验证过的知识中。

这种方法对于解决多跳问题尤其重要,因为单个查询可能需要分解为多个子问题,并且可能需要来自大量文档的信息才能生成准确的答案。

使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA,大模型实战,NLP与大模型,langchain,知识图谱,neo4j,大语言模型,大模型,深度学习,自然语言处理

在数据既丰富又复杂的时代,上述系统成为一个至关重要的工具,它确保用户查询得到的答案既包含广泛的知识,又保持验证准确性,无缝地弥合了非结构化数据和结构化知识图之间的鸿沟。

最后一步,系统将所检索到的非结构化和结构化信息传递给新的大型语言模型 Mistral-7b,用于文本生成。这种集成确保生成的响应不仅依赖于模型中内置的广泛知识,还经过特定实时数据的微调和丰富,这些数据来自向量和图形数据库的检索,从而提供更加详尽、准确和与上下文相关的信息,以提升用户体验。

用通俗易懂方式讲解系列

  • 用通俗易懂的方式讲解:自然语言处理初学者指南(附1000页的PPT讲解)
  • 用通俗易懂的方式讲解:NLP 这样学习才是正确路线
  • 用通俗易懂的方式讲解:28张图全解深度学习知识!
  • 用通俗易懂的方式讲解:不用再找了,这就是 NLP 方向最全面试题库
  • 用通俗易懂的方式讲解:实体关系抽取入门教程
  • 用通俗易懂的方式讲解:灵魂 20 问帮你彻底搞定Transformer
  • 用通俗易懂的方式讲解:大模型算法面经指南(附答案)
  • 用通俗易懂的方式讲解:十分钟部署清华 ChatGLM-6B,实测效果超预期
  • 用通俗易懂的方式讲解:内容讲解+代码案例,轻松掌握大模型应用框架 LangChain
  • 用通俗易懂的方式讲解:如何用大语言模型构建一个知识问答系统
  • 用通俗易懂的方式讲解:最全的大模型 RAG 技术概览
  • 用通俗易懂的方式讲解:利用 LangChain 和 Neo4j 向量索引,构建一个RAG应用程序

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了NLP面试与技术交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、添加微信号:mlc2060,备注:技术交流
方式②、微信搜索公众号:机器学习社区,后台回复:技术交流

使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA,大模型实战,NLP与大模型,langchain,知识图谱,neo4j,大语言模型,大模型,深度学习,自然语言处理

01 GraphCypherQAChain

GraphCypherQAChain 类在自然语言问题查询图数据库(特别是 Neo4j)领域发挥着重要作用。它利用 LLM 从用户输入的问题生成 Cypher 查询,然后执行这些查询在 Neo4j 图形数据库中,并根据查询结果提供答案。

这一工具使用户能够检索特定数据,而无需编写复杂的 Cypher 查询,从而使存储在图形数据库中的数据更容易访问和互动。

02 Mistral 7B

Mistral 7B 是最新的大型语言模型,因其在一系列基准测试中的卓越性能而受到认可,展示了处理各种语言任务和查询的熟练程度,如下图所示。

使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA,大模型实战,NLP与大模型,langchain,知识图谱,neo4j,大语言模型,大模型,深度学习,自然语言处理

在检索增强生成 (RAG) 架构中,Mistral 7B 发挥着关键作用,它根据向量和图形搜索检索到的信息合成和生成文本,确保输出不仅上下文丰富,而且能够根据用户的查询精确定制。它有效地弥合了非结构化数据和结构化知识图之间的差距,提供混合了预先训练的知识和实时、经过验证的数据的答案。

03 执行

让我们从安装依赖项开始。

pip install langchain openai wikipedia tiktoken neo4j python-dotenv transformers
pip install -U sagemaker

Neo4j 向量索引

我们首先导入必要的库和模块,为数据集准备、Neo4j 向量索引的接口以及使用 Mistral 7B 的文本生成功能奠定基础。使用 dotenv,它可以安全地加载环境变量,保护 OpenAI API 和 Neo4j 数据库的敏感信息。

import os
import re
from langchain.vectorstores.neo4j_vector import Neo4jVector
from langchain.document_loaders import WikipediaLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from dotenv import load_dotenv

load_dotenv()
os.environ["OPENAI_API_KEY"] = os.getenv('OPENAI_API_KEY')
os.environ["NEO4J_URI"] = os.getenv('NEO4J_URI')
os.environ["NEO4J_USERNAME"] = os.getenv('NEO4J_USERNAME')
os.environ["NEO4J_PASSWORD"] = os.getenv('NEO4J_PASSWORD')

在这里,我们使用 Leonhard Euler 的维基百科页面来进行我们的实验。我们使用该 bert-base-uncased 模型来标记文本。WikipediaLoader 加载指定页面的原始内容,然后使用 LangChain 的 RecursiveCharacterTextSplitter 将其分成更小的文本片段。

该拆分器确保每个块最大化为 200 个标记,其中重叠 20 个标记,遵守嵌入模型的上下文窗口限制,并确保不会丢失上下文的连续性。

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

def bert_len(text):
    tokens = tokenizer.encode(text)
    return len(tokens)

raw_documents = WikipediaLoader(query="Leonhard Euler").load()
text_splitter = RecursiveCharacterTextSplitter(
          chunk_size = 200,
          chunk_overlap  = 20,
          length_function = bert_len,
          separators=['\n\n', '\n', ' ', ''],
      )

documents = text_splitter.create_documents([raw_documents[0].page_content])

分块文档作为节点实例化到 Neo4j 向量索引中。它使用 Neo4j 图数据库和 OpenAI 嵌入的核心功能来构建该向量索引。

# Instantiate Neo4j vector from documents
neo4j_vector = Neo4jVector.from_documents(
    documents,
    OpenAIEmbeddings(),
    url=os.environ["NEO4J_URI"],
    username=os.environ["NEO4J_USERNAME"],
    password=os.environ["NEO4J_PASSWORD"]
)

在提取向量索引中的文档后,我们对示例用户查询执行向量相似度搜索,并检索前 2 个最相似的文档。

query = "Who were the siblings of Leonhard Euler?"
vector_results = neo4j_vector.similarity_search(query, k=2)
for i, res in enumerate(vector_results):
    print(res.page_content)
    if i != len(vector_results)-1:
        print()
vector_result = vector_results[0].page_content

使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA,大模型实战,NLP与大模型,langchain,知识图谱,neo4j,大语言模型,大模型,深度学习,自然语言处理

构建知识图谱

受到 NaLLM 项目的高度启发,我们使用他们的开源项目从非结构化数据构建知识图。

下面是使用 Leonhard Euler 的维基百科文章中的单个文档块构建的知识图。

使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA,大模型实战,NLP与大模型,langchain,知识图谱,neo4j,大语言模型,大模型,深度学习,自然语言处理

在深入研究该项目可以学到很多关于使用 LLM 构建知识图谱的知识。例如,以下是从非结构化文本中捕获实体和关系的提示:

"""
You are a data scientist working for a company that is building a graph database. Your task is to extract information from data and convert it into a graph database.
Provide a set of Nodes in the form [ENTITY_ID, TYPE, PROPERTIES] and a set of relationships in the form [ENTITY_ID_1, RELATIONSHIP, ENTITY_ID_2, PROPERTIES].
It is important that the ENTITY_ID_1 and ENTITY_ID_2 exists as nodes with a matching ENTITY_ID. If you can't pair a relationship with a pair of nodes don't add it.
When you find a node or relationship you want to add try to create a generic TYPE for it that  describes the entity you can also think of it as a label.

Example:
Data: Alice lawyer and is 25 years old and Bob is her roommate since 2001. Bob works as a journalist. Alice owns a the webpage www.alice.com and Bob owns the webpage www.bob.com.
Nodes: ["alice", "Person", {"age": 25, "occupation": "lawyer", "name":"Alice"}], ["bob", "Person", {"occupation": "journalist", "name": "Bob"}], ["alice.com", "Webpage", {"url": "www.alice.com"}], ["bob.com", "Webpage", {"url": "www.bob.com"}]
Relationships: ["alice", "roommate", "bob", {"start": 2021}], ["alice", "owns", "alice.com", {}], ["bob", "owns", "bob.com", {}]
"""

有很多有趣的功能,同时可以进行改进。

Neo4j DB QA 链

接下来,我们导入必要的库来设置 Neo4j DB QA 链。

from langchain.chat_models import ChatOpenAI
from langchain.chains import GraphCypherQAChain
from langchain.graphs import Neo4jGraph

构建图表后,我们需要连接到 Neo4jGraph 实例并可视化模式。

graph = Neo4jGraph(
    url=os.environ["NEO4J_URI"], username=os.environ["NEO4J_USERNAME"], password=os.environ["NEO4J_PASSWORD"]
)

print(graph.schema)
Node properties are the following:
[{'labels': 'Person', 'properties': [{'property': 'name', 'type': 'STRING'}, 
{'property': 'nationality', 'type': 'STRING'}, 
{'property': 'death_date', 'type': 'STRING'}, 
{'property': 'birth_date', 'type': 'STRING'}]}, 
{'labels': 'Location', 'properties': [{'property': 'name', 'type': 'STRING'}]}, 
{'labels': 'Organization', 'properties': [{'property': 'name', 'type': 'STRING'}]}, 
{'labels': 'Publication', 'properties': [{'property': 'name', 'type': 'STRING'}]}]

Relationship properties are the following:
[]
The relationships are the following:
['(:Person)-[:worked_at]->(:Organization)', 
'(:Person)-[:influenced_by]->(:Person)', 
'(:Person)-[:born_in]->(:Location)', 
'(:Person)-[:lived_in]->(:Location)', 
'(:Person)-[:child_of]->(:Person)', 
'(:Person)-[:sibling_of]->(:Person)', 
'(:Person)-[:published]->(:Publication)']

抽象 GraphCypherQAChain 所有细节并输出自然语言问题(NLQ)的自然语言响应。然而,在内部,它使用 LLM 生成该问题的 Cypher 查询,并从图形数据库中检索结果,最后使用该结果生成最终的自然语言响应,再次使用 LLM。

chain = GraphCypherQAChain.from_llm(
    ChatOpenAI(temperature=0), graph=graph, verbose=True
)

graph_result = chain.run("Who were the siblings of Leonhard Euler?")

使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA,大模型实战,NLP与大模型,langchain,知识图谱,neo4j,大语言模型,大模型,深度学习,自然语言处理

graph_result
'The siblings of Leonhard Euler were Maria Magdalena and Anna Maria.'

Mistral-7b-指令

我们在 AWS SageMaker 环境中从 Hugging Face 设置 Mistral-7B 终端节点。

import json
import sagemaker
import boto3
from sagemaker.huggingface import HuggingFaceModel, get_huggingface_llm_image_uri

try:
    role = sagemaker.get_execution_role()
except ValueError:
    iam = boto3.client('iam')
    role = iam.get_role(RoleName='sagemaker_execution_role')['Role']['Arn']
    
hub = {
    'HF_MODEL_ID':'mistralai/Mistral-7B-Instruct-v0.1',
    'SM_NUM_GPUS': json.dumps(1)
}

huggingface_model = HuggingFaceModel(
    image_uri=get_huggingface_llm_image_uri("huggingface",version="1.1.0"),
    env=hub,
    role=role, 
)

最终响应是通过构造提示来制作的,该提示包括指令、向量索引中的相关数据、图形数据库中的相关信息以及用户的查询。

然后将此提示传递给 Mistral-7b 模型,模型根据提供的信息生成有意义且准确的响应。

mistral7b_predictor = huggingface_model.deploy(
    initial_instance_count=1,
    instance_type="ml.g5.4xlarge",
    container_startup_health_check_timeout=300,
)

query = "Who were the siblings of Leonhard Euler?"
final_prompt = f"""You are a helpful question-answering agent. Your task is to analyze 
and synthesize information from two sources: the top result from a similarity search 
(unstructured information) and relevant data from a graph database (structured information). 
Given the user's query: {query}, provide a meaningful and efficient answer based 
on the insights derived from the following data:

Unstructured information: {vector_result}. 
Structured information: {graph_result}.
"""

response = mistral7b_predictor.predict({
    "inputs": final_prompt,
})

print(re.search(r"Answer: (.+)", response[0]['generated_text']).group(1))
The siblings of Leonhard Euler were Maria Magdalena and Anna Maria.

要点

Neo4j 向量检索与 GraphCypherQAChainMistral-7b 的集成提供了一个强大的系统来处理复杂数据,有效地弥合了大量非结构化数据和复杂的图形知识之间的差距,通过综合两个数据源的信息,为用户查询提供全面、准确的响应。

利用 Neo4j 进行向量相似性搜索和图形数据库检索,可确保生成的响应不仅通过 Mistral-7b 的大量预先训练的知识获得信息,而且还通过来自向量和图形数据库的实时数据进行上下文丰富和验证。

最后,作者的目标是在未来的实验中尝试多跳查询,因为最初建立模块化管道对于适应快速发展的人工智能领域是必要的。

04 总结

该项目强调了 Neo4j Vector Index 和 LangChain 的有效组合,GraphCypherQAChain 分别可以浏览非结构化数据和图形知识,然后使用 Mistral-7b 生成明智且准确的响应。

通过使用 Neo4j 从向量索引和图形数据库检索相关信息,系统确保生成的响应不仅上下文丰富,而且锚定在经过验证的实时知识中。

该实现展示了检索增强生成的实际应用,其中利用来自不同数据源的综合信息来生成响应,这些响应是预先训练的知识和特定的实时数据的和谐混合,从而提高了预测的准确性和相关性。对用户查询的响应。

参考资料

https://medium.com/neo4j/enhanced-qa-integrating-unstructured-and-graph-knowledge-using-neo4j-and-langchain-6abf6fc24c27

https://github.com/neo4j/NaLLM/tree/main

https://medium.com/neo4j/harnessing-large-language-models-with-neo4j-306ccbdd2867

https://medium.com/neo4j/knowledge-graphs-llms-fine-tuning-vs-retrieval-augmented-generation-30e875d63a35

https://medium.com/neo4j/knowledge-graphs-llms-multi-hop-question-answering-322113f53f51

https://medium.com/neo4j/langchain-library-adds-full-support-for-neo4j-vector-index-fa94b8eab334

https://mistral.ai/news/announcing-mistral-7b/

https://www.youtube.com/watch?v=Hg4ahTQlBm0文章来源地址https://www.toymoban.com/news/detail-801036.html

到了这里,关于使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【neo4j】neo4j的安装与使用

    https://www.oracle.com/java/technologies/downloads/ 按照步骤安装即可 配置环境变量 在系统变量中添加 path变量中添加 https://neo4j.com/deployment-center/ 下载后,在指定位置解压缩 与java相同,也需要设置环境变量。 终端输入neo4j.bat console 成功

    2024年02月03日
    浏览(57)
  • spring boot集成neo4j实现简单的知识图谱

    随着社交、电商、金融、零售、物联网等行业的快速发展,现实社会织起了了一张庞大而复杂的关系网,传统数据库很难处理关系运算。大数据行业需要处理的数据之间的关系随数据量呈几何级数增长,急需一种支持海量复杂数据关系运算的数据库,图数据库应运而生。 世界

    2024年03月12日
    浏览(54)
  • 图数据库Neo4j——Neo4j简介、数据结构 & Docker版本的部署安装 & Cypher语句的入门

    MySQL是一种开源的关系型数据库管理系统,使用SQL作为其查询语言,常见的关系型数据库有MySQL、Oracle、SQL Server、PostgreSQL等。相关博客文章如下: 【合集】MySQL的入门进阶强化——从 普通人 到 超级赛亚人 的 华丽转身 PostgreSQL数据库——Docker版本的postgres安装 Navicat连接方式

    2024年02月06日
    浏览(58)
  • Neo4j存储原理与数据结构

    Neo4j存储原理   本文主要针对数据在磁盘上的存储对Neo4j的存储原理进行简单介绍。Neo4j数据库文件被持久化到磁盘存储中以获得长期的持久性。 默认情况下,数据文件存储在Neo4j目录下的data /databases/graph.db中(v3.x+) 其中: nodestore* 存储图中节点相关的信息 relationship* 存储

    2024年02月09日
    浏览(23)
  • vue+neo4j(neo4j desktop安装和使用)

    官网下载安装 官方下载链接:https://neo4j.com/download/ 下载后会跳转到 Activation Key 页面,已经自动生成好密钥,复制后,粘贴到 Neo4j Deskto 的 Software Keys 输入框内即可完成激活 官方安装使用手册 https://neo4j.com/developer/neo4j-desktop/ 软件主界面,默认附带一个 Example Project ,自带一个

    2024年02月14日
    浏览(42)
  • NEO4J的基本使用以及桌面版NEO4J Desktop导入CSV文件

    因为我也刚接触知识图谱,就是小白,本篇博客相当于一些入门级的Cypher语句的举例,然后具体说明一下NEO4J Desktop导入CSV文件是怎么实现的,以及他的一些基本操作,适合刚接触的小伙伴。如果大家对于NEO4J的配置有疑问的话可以参考文章NEO4J桌面版的配置和连接Pycharm_neo4

    2024年01月23日
    浏览(42)
  • 图数据库Neo4j——SpringBoot使用Neo4j & 简单增删改查 & 复杂查询初步

    图形数据库是专门用于存储图形数据的数据库,它使用图形模型来存储数据,并且支持复杂的图形查询。常见的图形数据库有Neo4j、OrientDB等。 Neo4j是用Java实现的开源NoSQL图数据库,本篇博客介绍如何在SpringBoot中使用Neo4j图数据库,如何进行简单的增删改查,以及如何进行复杂

    2024年02月06日
    浏览(60)
  • Neo4j在Ubuntu 20.04上安装、配置以及Python连接使用 - Neo4j

    1. 进入要安装neo4j的ubuntu环境。 2. 添加Debian资源库。 java 1.8.xx版本对应neo4j 3.xx版本(jdk 11版本对应neo4j 4.xx版本): (1)wget -O - https://debian.neo4j.com/neotechnology.gpg.key | sudo apt-key add - (2)echo \\\'deb https://debian.neo4j.com stable 3.5\\\' | sudo tee /etc/apt/sources.list.d/neo4j.list(或者:echo \\\'deb

    2024年02月04日
    浏览(53)
  • Neo4j的简单使用

    返回所有节点: 查询特定节点及其属性 查询节点及其关系 方法一:删除节点和关系 打开Neo4j浏览器或使用Neo4j的客户端工具连接到数据库。 运行以下Cypher查询语句: MATCH (n) DETACH DELETE n; 这将删除所有节点和关系,并且断开与其他节点和关系的连接。 方法二:删除数据库文

    2024年02月11日
    浏览(41)
  • Neo4j数据库使用相关

    做知识图谱相关项目,初步使用了neo4j数据库,简单记录一下使用过程和踩坑备忘~ 操作系统Win10+Neo4j社区版(community,版本4.4.30) 目录 一、安装 1.1 安装Java和Neo4j 1.2 环境变量设置 二、 Neo4j使用 2.1 安装服务 2.2 数据库使用 2.3 数据库备份  Java下载链接:Java Downloads | Oracle

    2024年04月16日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包