自然语言处理从入门到应用——LangChain：索引（Indexes）-[文档加载器（Document Loaders）]-Toy模板网

这篇具有很好参考价值的文章主要介绍了自然语言处理从入门到应用——LangChain：索引（Indexes）-[文档加载器（Document Loaders）]。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

LangChain系列文章：

基础知识
快速入门
- 安装与环境配置
- 链（Chains）、代理（Agent:）和记忆（Memory）
- 快速开发聊天模型
模型（Models）
- 基础知识
- 大型语言模型（LLMs）
  - 基础知识
  - LLM的异步API、自定义LLM包装器、虚假LLM和人类输入LLM（Human Input LLM）
  - 缓存LLM的调用结果
  - 加载与保存LLM类、流式传输LLM与Chat Model响应和跟踪tokens使用情况
- 聊天模型（Chat Models）
  - 基础知识
  - 使用少量示例和响应流式传输
- 文本嵌入模型
  - Aleph Alpha、Amazon Bedrock、Azure OpenAI、Cohere等
  - Embaas、Fake Embeddings、Google Vertex AI PaLM等
提示（Prompts）
- 基础知识
- 提示模板
  - 基础知识
  - 连接到特征存储
  - 创建自定义提示模板和含有Few-Shot示例的提示模板
  - 部分填充的提示模板和提示合成
  - 序列化提示信息
- 示例选择器（Example Selectors）
- 输出解析器（Output Parsers）
记忆（Memory）
- 基础知识
- 记忆的类型
  - 会话缓存记忆、会话缓存窗口记忆和实体记忆
  - 对话知识图谱记忆、对话摘要记忆和会话摘要缓冲记忆
  - 对话令牌缓冲存储器和基于向量存储的记忆
- 将记忆添加到LangChain组件中
- 自定义对话记忆与自定义记忆类
- 聊天消息记录
- 记忆的存储与应用
索引（Indexes）
- 基础知识
- 文档加载器（Document Loaders）
- 文本分割器（Text Splitters）
- 向量存储器（Vectorstores）
- 检索器（Retrievers）
链（Chains）
- 基础知识
- 通用功能
  - 自定义Chain和Chain的异步API
  - LLMChain和RouterChain
  - SequentialChain和TransformationChain
  - 链的保存（序列化）与加载（反序列化）
- 链与索引
  - 文档分析和基于文档的聊天
  - 问答的基础知识
  - 图问答（Graph QA）和带来源的问答（Q&A with Sources）
  - 检索式问答
  - 文本摘要（Summarization）、HyDE和向量数据库的文本生成
代理（Agents）
- 基础知识
- 代理类型
- 自定义代理（Custom Agent）
- 自定义MRKL代理
- 带有ChatModel的LLM聊天自定义代理和自定义多操作代理（Custom MultiAction Agent）
- 工具
  - 基础知识
  - 自定义工具（Custom Tools）
  - 多输入工具和工具输入模式
  - 人工确认工具验证和Tools作为OpenAI函数
- 工具包（Toolkit）
- 代理执行器（Agent Executor）
  - 结合使用Agent和VectorStore
  - 使用Agents的异步API和创建ChatGPT克隆
  - 处理解析错误、访问中间步骤和限制最大迭代次数
  - 为代理程序设置超时时间和限制最大迭代次数和为代理程序和其工具添加共享内存
- 计划与执行
回调函数（Callbacks）

合并语言模型和我们自己的文本数据是区分它们的一种强大方式，这样做的第一步是将数据加载到“文档”中，文档加载器的作用就是使这个过程变得简单。

LangChain提供了三种文档加载器：

转换加载器
公共数据集或服务加载器
专有数据集或服务加载器

转换加载器

这些转换加载器将数据从特定格式转换为文档格式，例如有用于CSV和SQL的转换器。大多数情况下，这些加载器从文件中输入数据，有时也可以从URL中输入数据。许多这些转换器的主要驱动程序是Unstructured模块。该包可以将许多类型的文件（文本、PowerPoint、图像、HTML、PDF 等）转换为文本数据。

文档加载器提供的文件类型或数据类型包括：

Airtable
OpenAIWhisperParser
CoNLL-U
Copy Paste
CSV
Email
EPUB
EverNote
Microsoft Excel
Facebook Chat
File Directory
HTML
Images
Jupyter Notebook
JSON
Markdown
Microsoft PowerPoint
Microsoft Word
Open Document Format (ODT)
Pandas DataFrame
PDF
Sitemap
Subtitle
Telegram
TOML
Unstructured File
URL
Selenium URL Loader
Playwright URL Loader
WebBaseLoader
Weather
WhatsApp Chat

公共数据集或服务加载器

这些数据集和来源是为公共领域创建的，我们使用查询来搜索并下载所需的文档。。对于这些数据集和服务，我们不需要任何访问权限。下面是一些公共数据集或服务加载器的示例：

Arxiv
AZLyrics
BiliBili
College Confidential
Gutenberg
Hacker News
HuggingFace数据集
iFixit
IMSDb
MediaWikiDump
Wikipedia
YouTube 转录

专有数据集或服务加载器

这些数据集和服务不属于公共领域。这些加载器主要用于转换特定格式的应用程序或云服务的数据，e。我们需要访问令牌和其他参数才能访问这些数据集和服务。下面是一些专有数据集或服务加载器的示例：

Airbyte JSON
Apify Dataset
AWS S3 Directory
AWS S3 File
Azure Blob Storage Container
Azure Blob Storage File
Blackboard
Blockchain
ChatGPT Data
Confluence
Diffbot
Docugami
DuckDB
Fauna
Figma
GitBook
Git
Google BigQuery
Google Cloud Storage Directory
Google Cloud Storage File
Google Drive
Image Captions
Iugu
Joplin
Microsoft OneDrive
Modern Treasury
Notion DB 2/2
Notion DB 1/2
Obsidian
Psychic
PySpark DataFrame Loader
ReadTheDocs Documentation
Reddit
Roam
Slack
Snowflake
Spreedly
Stripe
Twitter
2Markdown

参考文献：
[1] LangChain官方网站：https://www.langchain.com/
[2] LangChain 🦜️🔗 中文网，跟着LangChain一起学LLM/GPT开发：https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架：http://www.cnlangchain.com/文章来源地址https://www.toymoban.com/news/detail-665185.html

到了这里，关于自然语言处理从入门到应用——LangChain：索引（Indexes）-[文档加载器（Document Loaders）]的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！