LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用

这篇具有很好参考价值的文章主要介绍了LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

LlamaIndex在https://github.com/jerryjliu/llama_index

文档在https://gpt-index.readthedocs.io/en/latest/guides/primer/usage_pattern.html

第一个坑,python3.7安装不了库
后来使用的是python3.8.7

关于LlamaIndex读取的原理

在python版的pdfchat中,可以看到调用了LlamaIndex的接口,通过llamahub的库里的PDR读取器来读取PDF文件

PDFReader = download_loader("PDFReader")
loader = PDFReader()
documents = loader.load_data(file=Path(file))

我一开始很疑惑,在https://llamahub.ai/上面我也没看到有PDFReader这个名字,怎么这里就能成功导入,后来通过跟踪代码,发现

LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用

代码会先检查文件夹里面有没有library.json,这个library.json我觉着相当于是llamahub上的读取器的列表,如果没有的话,会进行get请求获取,这里就是容易出现proxy代理问题的地方

LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用

https://raw.githubusercontent.com/emptycrown/loader-hub/main/loader_hub/library.json打开是这样

LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用

这里可以理解为什么是download_loader(“PDFReader”)了

PS:如果在download_loader()时候出现问题,那么断点一步步跟进去请求然后加上代理就好,这里加上代理就完事了其实,能成功用了

# 用clash的话
proxies = {
     "http": "http://127.0.0.1:7890",
     "https": "http://127.0.0.1:7890",
 }

LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用

具体位置(如果要深究一下,llamahub下载的每个加载模块放在D:\Python387\Lib\site-packages\llama_index\readers\llamahub_modules或者D:\Python387\Lib\site-packages\llama_index\readers\llamahub_modules\file里,然而每个模块对应的文件夹里面,需要成功下载requirements.txt和base.py,缺一不可,下面就是代码里进行检查并下载的位置)

LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用
LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用

LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用

跟了几步PDFReader会发现,这个加载器的缺陷或许在于,他并没有分章节,而是一口气把PDF里的所有内容读了出来,这样一来章节之间的内容,可能会被分割成几块建索引,这样的效果可想而知并不理想

https://juejin.cn/post/7206950454097690680这样的操作才是更正确的

LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用



项目来源https://juejin.cn/post/7206950454097690680
先把项目clone下来了,在项目当前目录运行npm installLlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用
出报错,查了一下资料问了一下chatgpt觉得应该是nodejieba的安装问题,会涉及系统内使用的编译器等等一些问题,比较不好解决,于是采取使用另一个jieba分词的库来替代参考https://zhuanlan.zhihu.com/p/453803476
于是先把package.json中的"nodejieba": “^2.6.0”,去掉再运行npm install,然后再运行
都安装好之后把项目里的jieba库换成新安装的库,全局搜索

LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用文章来源地址https://www.toymoban.com/news/detail-484457.html

到了这里,关于LlamaIndex的使用 | LangChain的研究 | pdfgpt安装使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Langchain Agent研究】SalesGPT项目介绍(四)

    【Langchain Agent研究】SalesGPT项目介绍(三)-CSDN博客   github地址:GitHub - jerry1900/SalesGPT: Context-aware AI Sales Agent to automate sales outreach.               上节课,我们主要介绍了SalesGPT的类属性和它最重要的类方法from_llm()。因为SalesGPT没有构造器方法,所以类方法from_llm()方法就

    2024年02月21日
    浏览(48)
  • 安装使用LangChain时的报错解决

    刚刚装了LangChain但是引入各种包都报错,原因貌似为 Python3.7 不支持 LangChain,需要开启一个新的Python3.10环境,再重新安装即可正常运行。 创建新的python环境 conda create -n new_env python==3.10 重新安装 pip install langchain 这是当时的报错信息,写出来希望小伙伴来避避坑

    2024年02月15日
    浏览(100)
  • RAG实战2-如何使用LlamaIndex存储和读取向量

    本文是检索增强生成(Retrieval-augmented Generation,RAG)实战1-基于LlamaIndex构建第一个RAG应用的续集,在阅读本文之前请先阅读前篇。 在前篇中,我们介绍了如何使用LlamaIndex构建一个非常简单的RAG应用,初步了解了LlamaIndex构建RAG应用的大体流程。在运行前篇的程序时,我们会发现两

    2024年03月09日
    浏览(52)
  • 使用 Elasticsearch 和 LlamaIndex 进行高级文本检索:句子窗口检索

    2023 年是检索增强生成 (RAG) 的一年,人们探索了许多用例,并使用该技术开发了数百种产品。 从 Q/A 聊天机器人到基于上下文的代理,RAG 的使用一直是 LLM 申请快速增长的主要因素。 支持不断发展的社区以及 Langchain 和 LlamaIndex 等强大框架的可用性,使开发人员可以更轻松地

    2024年01月18日
    浏览(42)
  • LLM之LangChain:LangChain 0.1.0 版本发布的简介、安装和使用方法、案例应用之详细攻略

    LLM之LangChain:LangChain 0.1.0 版本发布的简介、安装和使用方法、案例应用之详细攻略 导读 :2024年1月8日,今天,我们很高兴宣布 发布 langchain 0.1.0 ,这是我们的 第一个稳定版本 。它完全 向后兼容 ,提供了 Python 和 JavaScript 两个版本,并通过功能和文档的双重改进来提高焦点

    2024年01月19日
    浏览(53)
  • LLM本地知识库问答系统(二):如何正确使用LlamaIndex索引

    LLM本地知识库问答系统(一):使用LangChain和LlamaIndex从零构建PDF聊天机器人指南        上一篇文章我们介绍了使用LlamaIndex构建PDF聊天机器人,本文将介绍一下LlamaIndex的基本概念和原理。        LlamaIndex(也称为GPT Index)是一个用户友好的界面,可将外部数据连接到大型语

    2024年02月10日
    浏览(47)
  • RAG实战6-如何在LlamaIndex中使用自己搭建的API

    在搭建一个大模型API服务中,我们介绍了如何使用SWIFT框架搭建一个大模型API服务。在RAG实战1-5中,我们一直使用的是本地加载大模型的方式来调用大模型,本文将介绍如何在LlamaIndex中使用自己搭建的大模型API。 LlamaIndex支持部分厂商的API配置,如OpenAI,但我们想使用的是自

    2024年03月14日
    浏览(59)
  • LLM之RAG实战(八)| 使用Neo4j和LlamaIndex实现多模态RAG

           人工智能和大型语言模型领域正在迅速发展。一年前,没有人使用LLM来提高生产力。时至今日,很难想象我们大多数人或多或少都在使用LLM提供服务,从个人助手到文生图场景。由于大量的研究和兴趣,LLM每天都在变得越来越好、越来越聪明。不仅如此,他们的理解

    2024年02月02日
    浏览(48)
  • LLM之RAG实战(十六)| 使用Llama-2、PgVector和LlamaIndex构建LLM Rag Pipeline

           近年来,大型语言模型(LLM)取得了显著的进步,然而大模型缺点之一是幻觉问题,即“一本正经的胡说八道”。其中RAG(Retrieval Augmented Generation,检索增强生成)是解决幻觉比较有效的方法。本文,我们将深入研究使用 transformer库 、 Llama-2模型 、 PgVector数据库 和

    2024年01月21日
    浏览(47)
  • 翻译: LLM构建 GitHub 提交记录的聊天机器人二 使用 Timescale Vector、pgvector 和 LlamaIndex

    接着上篇内容:翻译: LLM构建 GitHub 提交记录的聊天机器人一 使用 Timescale Vector、pgvector 和 LlamaIndex TSV Time Machine 示例应用有三个页面: Home主页:提供应用程序使用说明的应用程序主页。 Load Data加载数据:页面以加载所选存储库的 Git 提交历史记录。 Time Machine Demo:与加载的

    2024年01月20日
    浏览(72)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包