【书生·浦语大模型实战】“PDF阅读小助手”学习笔记

这篇具有很好参考价值的文章主要介绍了【书生·浦语大模型实战】“PDF阅读小助手”学习笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 参考资料

《新版本Lmdeploy量化手册与评测》

2 项目资料

项目主页:【tcexeexe / pdf阅读小助手】

3 模型运行测试

在InternStudio平台中选择A100 (1/4)的配置,镜像选择Cuda11.7-conda,可以选择已有的开发机langchain

3.1 创建工作空间

mkdir /root/pdf_project

1.2 Clone项目

git clone https://gitee.com/tcexeexe/pdf-reading-assistant.git

1.3 ⭐创建虚拟项目空间并生成软链接

# 迭代创建虚拟项目空间和model目录
ln -sf /root/pdf_project /home/tcexeexe
# 建立分词数据目录
mkdir -p /root/pdf_project/data/pdf-reading-assistant/data_base/vector_db/pdf

1.4 激活conda环境

conda activate InternLM

1.5 安装PyPDF2库

pip install PyPDF2 pypdf tiktoken transformers_stream_generator

1.6 创建model文件夹:用来存放工具模型

mkdir -p /home/tcexeexe/data/model

1.7 建立分词程序的软链接

ln -sf /root/data/model/sentence-transformer /home/tcexeexe/data/model/sentence-transformer

Note:

  • /home/tcexeexe/data/model/sentence-transformer:此路径来自于make_knowledge_repository.py

1.8 生成PDF知识库

python /root/pdf_project/data/pdf-reading-assistant/make_knowledge_repository.py

以上脚本会生成数据库文件chroma.sqlite3,知识库中指定的文件内容就会存到其中,之前使用的PDF文件就不需要了。

在安装PyPDF2之后仍然会遇到"ModuleNotFoundError: No module named ‘PyPDF2’"的错误

我们猜测这个错误是因为PyPDF2跟pypdf的重复安装导致的,为了验证这个问题,我们可以尝试使用绝对路径运行make_knowledge_repository.py:

/root/.conda/envs/InternLM/bin/python \
/root/pdf_project/data/pdf-reading-assistant/make_knowledge_repository.py

1.9 在InternStudio中上传的PDF文件会被其意外清理

我们在InternStudio上做实验时发现:

InternStudio会不定时地删除上传的PDF文件;

我们咨询了一下队长:
【书生·浦语大模型实战】“PDF阅读小助手”学习笔记,pdf,学习,笔记
队长回复说这是InternStudio一种已知的问题;

1.8 运行网页demo

python /root/pdf_project/data/pdf-reading-assistant/web_demo.py

1.9 生成秘钥

ssh-keygen -t rsa

1.10 使用浏览器访问应用

通过网页访问:127.0.0.1:7860

1.11 提问备忘

“提示学习”:来自于《大语言模型提示注入攻击安全风险分析报告》
提示学习是什么

【书生·浦语大模型实战】“PDF阅读小助手”学习笔记,pdf,学习,笔记文章来源地址https://www.toymoban.com/news/detail-819945.html

2 模型部署

2.1 OpenXLab:“相当于浦语体系中的HuggingFace平台”

2.2 更新工具库

python -m pip install --upgrade pip

到了这里,关于【书生·浦语大模型实战】“PDF阅读小助手”学习笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 书生.浦语大模型实战一

    从专用模型到通用大模型 书生.万卷1.0 文本 图像-文本 视频数据 OpenDataLab开放平台 图像:ImageNet tokens语料:WikiQA 音频 视频:MovieNet 3D模型 增量续训 使用场景:让基座模型学习到一些新知识,如某个垂类领域知识 训练数据:文章、书籍、代码等 有监督微调 使用场景:让模型

    2024年01月16日
    浏览(50)
  • 书生·浦语大模型实战营-第四课笔记

    期待已久的微调课 增量预训练和指令跟随是两种微调模式,即两种微调策略。   1)增量预训练 投喂新的领域知识即可,例如书籍、文章、代码 2)指令跟随 采用高质量对话和问答数据进行训练 两者是微调的方法,即算法。 xtuner是一种微调框架。

    2024年02月21日
    浏览(49)
  • 书生·浦语大模型实战营第四次课堂笔记

    哈哈到这才想起来写笔记 倒回去看发现要求将不要葱姜蒜换成自己的名字和昵称! 好好好我就是不配玩(换成管理员也不行!) 诶怎么能进这个环境?要进双系统ubuntu? 现在看视频发现原来是我进入成功了,可以接着往下做omygod!!!! 但是 还是看看视频吧 微调是在海量

    2024年01月20日
    浏览(50)
  • 书生·浦语大模型实战营第五节课笔记及作业

    1.1 模型部署及大模型特点 1.2 大模型部署挑战及方案 2.1 核心功能-量化 2.2 核心功能-推理引擎TurboMind 2.1 核心功能-推理服务api server 按照文档LMDeploy 的量化和部署中的步骤在InternStudio中的 A100(1/4) 机器上一步步操作即可! 3.1 基础作业 使用 LMDeploy 以本地对话、网页Gradio、API服

    2024年01月19日
    浏览(39)
  • [书生·浦语大模型实战营]——XTuner 大模型单卡低成本微调

    在未经过微调的pretrained LLM中,模型只会尽量去拟合你的输入,也就是说模型并没有意识到你在提问,因此需要微调来修正。 1.1常用的微调模式 LLM的下游应用中, 增量预训练 和 指令跟随 是经常会用到的两种的微调模式。 增量预训练微调 使用场景:让基座模型学习到一些新知

    2024年01月20日
    浏览(78)
  • 大模型微调学习之旅① — 书生·浦语大模型全链路开源体系

      通过学长的推荐了解到了书生·浦语,现阶段大模型呈井喷式的发展,身为人工智能的学生,感觉不应该局限于简单的调用大模型,而是应该根据实际的需求微调出符合自己情况的大模型,所以就加入了 书生·浦语大模型的培训营,接下来让我们开始大模型微调学习之旅!

    2024年02月02日
    浏览(85)
  • 书生浦语大模型--开源体系

    一、大模型的发展   大模型与通用人工智能(AGI),大模型通常被视为发展通用人工智能的重要途径。AI研究从专用模型向通用模型转变,在过去的一二十年中,研究重点在于针对特定任务的专用模型。 专用模型的已经再多个领域取得显著成就,包裹大规模语音识别、图像识

    2024年01月20日
    浏览(52)
  • 书生·浦语大模型开源体系(二)笔记

    💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢迎在文章下方留下你的评论和反馈。我期待着与你分享知识、互

    2024年04月09日
    浏览(89)
  • 书生·浦语大模型开源体系(四)笔记

    💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢迎在文章下方留下你的评论和反馈。我期待着与你分享知识、互

    2024年04月28日
    浏览(31)
  • 书生·浦语大模型--第二节课笔记

    大模型 定义:参数量巨大、拥有庞大计算能力和参数规模的模型 特点:大量数据训练、数十亿甚至千亿数据、惊人性能 InternLM系列 InternLM:轻量级训练框架 Lagent:轻量级、开源的基于大语言模型得到智能体框架,将大语言模型转变为多种智能体 浦语灵笔:视觉语言大模型,

    2024年01月22日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包