聊聊多模态大模型处理的思考

8月前作者：又见阿郎分类：Toy博客阅读(51) 违法举报

这篇具有很好参考价值的文章主要介绍了聊聊多模态大模型处理的思考。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

转载请注明出处：https://www.cnblogs.com/zhiyong-ITNote

多模态：文本、音频、视频、图像等多形态的展现形式。
目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下，审视下多模态大模型的实现方式。
首先就要区分输入与输出，即输入的模态与输出的模态。从目前来看，模型的输出大多都是文本，模型的输入一般是图片/文本；但少数的大模型比如QWen、讯飞星火等支持语音的输入。

输入

对于输入来说，最需要考虑的就是Embedding。
不管是哪种大模型，其最终的输入都是张量数字的形式；其模型的结构都是神经网络模型，而神经网络模型计算的单位是张量。这中间就需要一个转换过程，也就是最常用听到看到的Embedding。

Embedding的作用是巨大的，不论是在深度学习领域还是推荐系统领域、搜索引擎领域等等；而且也衍生出向量数据库的概念；存的就是这些Embedding后的张量。

多模态基座模型

即原生基座模型，比如GLM、LlaMa2、QWen、文心一言等基座模型支持多模态的输入输出，从个人调研来看，GLM、文心一言对这方面的支持比较弱，仅支持文本/图像；LlaMa2有开源的实现支持文本/图像/音视频；QWen是最全的，阿里对其支持很到位，而且在魔塔社区，阿里开源了很多的音视频模型，还是蛮强大覆盖很全的。
以Llama2实现为例，官方地址：Video-LLaMA；其架构图如下：

输入的Embedding化都在模型内部已处理完毕，我们无需考虑。
魔塔社区/HuggingFace上，已经开源了很多高质量的多模态模型，截个图展示下：

文本化处理

使用开源/商务组件处理输入的内容，将其文本化，再输入到模型中；然后再经历输入部分的流程。

但对于这类的处理来说，需要考虑的问题还是比较多：

组件转换文本的准确性
组件转换的损失
大模型中Embedding组件将输入文本Embedding化时的损失

第一点不用叙述；
第二点，如果组件的处理不到位，遗漏了一些语气词或是某些情感词之类的，对输出文本的内容表达、语义表达将产生一定的损失。
第三点，如果转换后的文本语义与文本内容不对应，比如同音词或是生僻字的情况下，导致Embedding化时产生一定的损失。

Embedding化处理

利用某种Embedding模型，将输入的内容直接Embedding化，生成张量后，直接丢进大模型中。
在这里需要考虑两点：

大模型支持Embedding的输入
Embedding组件与大模型内置的Embedding组件要一致

大模型训练时，有自己的内置的Embedding组件，如果输入时的Embedding组件产生的张量与训练时的Embedding张量不一致，这就是两种不同的Embedding组件导致的问题，其最终的效果将会大打折扣。

输出

模型的输出虽然最终也是经过处理后，生成文本；但这就已经很满足绝大多数的需求。
而对于很多场景下，比如我们的场景需要再制定角色语音包，也是很好处理的。这个过程其实就是语音合成的过程。比如，开车导航时的语音包，有不同的人物声音，这都是语音合成处理的。

总结

最终来看，第一个方案肯定是最合适的；但如果对于选型的大模型不支持多模态的情况下，考虑开源实现或是第二张方案，但要综合调研其带来的影响，并不是简单的转文本就行。第三种，目前我没有找到合适的Embedding模型支持多模态，后续继续探讨挖掘下。

转载请注明出处：https://www.cnblogs.com/zhiyong-ITNote

首发于个人公众号
聊聊多模态大模型处理的思考文章来源地址https://www.toymoban.com/news/detail-843556.html

到了这里，关于聊聊多模态大模型处理的思考的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

stable-diffusion-webui的基础功能手动安装，了解代码结构、依赖、模型出处

Stable Diffusion `一键安装包（解压即用防爆显存）：https://www.bilibili.com/video/BV1iM4y1y7oA/ 相关博文： 1.stable-diffusion-webui安装（2）：扩展模块extensions——汉化、双语等 2. stable-diffusion 训练GUI安装——lora、dreambooth 虽然，当前 B站有很多stable-diffusion-webui 的一键安装包，但是不易

2024年01月19日
浏览(59)
多模态大模型时代下的文档图像智能分析与处理

随着人工智能技术的不断发展，尤其是深度学习技术的广泛应用，多模态数据处理和大模型训练已成为当下研究的热点之一，这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。多模态大模型时代下的文档图像智能分析与处理的研究旨在通过运用多种数据类型，

2024年02月06日
浏览(49)
【思考】聊聊低代码的实践之路

这个概念由来已久，但是在国内兴起，是最近几年；低代码即Low-Code；指提供可视化开发环境，可以用来创建和管理软件应用；简单的说就是可以通过各种组件的拖拽，实现页面的创建，交互流程和逻辑，以及数据层面的管理，更加高效的实现需求；早先在数据公司时；见

2024年02月01日
浏览(46)
【深度思考】聊聊CGLIB动态代理原理

CGLIB的全称是：Code Generation Library。 CGLIB是一个强大的、高性能、高质量的代码生成类库，它可以在运行期扩展Java类与实现Java接口，底层使用的是字节码处理框架ASM。 Github地址：https://github.com/cglib/cglib。 CGLIB的Maven坐标如下所示：首先，新增一个类：然后，自定义一个方法

2023年04月21日
浏览(35)
【深度思考】聊聊JDK动态代理原理

首先，定义一个接口：然后，新增一个类并实现上面的接口：假设现在有这么一个需求：在不改动以上类代码的前提下，对该方法增加一些前置操作或者后置操作。接下来就来讲解下，如何使用 JDK动态代理来实现这个需求。首先，自定义一个调用处理器，实现 java.lang.r

2023年04月17日
浏览(39)
GPT-3和自然语言处理的前沿：思考AI大模型的发展

自然语言处理（NLP）是人工智能（AI）领域中最富有挑战性和活跃的研究领域之一。近年来，随着深度学习技术的发展和计算能力的提高，大型语言模型，尤其是OpenAI的GPT-3，已成为推动该领域进步的核心力量。本文将详细探讨GPT-3模型的架构、应用和对NLP的影响，同时思考

2024年04月24日
浏览(74)
多模态及图像安全的探索与思考

第六届中国模式识别与计算机视觉大会（The 6th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2023）已于近期在厦门成功举办。通过参加本次会议，使我有机会接触到许多来自国内外的模式识别和计算机视觉领域的研究者和工业界同行，了解了目前我国模式识

2024年02月08日
浏览(33)
关于单测技术选型，聊聊我的思考

对于单测来说，目前常用的单测框架有： JUnit Mockito Spock PowerMock JMockit TestableMock 其中 JUnit 不支持 Mock，因此基本不会只用 JUnit，而是结合其他有 Mock 功能的框架一起使用。从知名度及使用率来说，Mockito 和 Spock 使用较多，而 PowerMock、JMockit、TestableMock 使用较少。下面我们将主

2023年04月11日
浏览(43)
利用pytorch自定义CNN网络（五）：保存、加载自定义模型【转载】

本文转载自： PyTorch | 保存和加载模型本文主要介绍如何加载和保存 PyTorch 的模型。这里主要有三个核心函数： torch.save ：把序列化的对象保存到硬盘。它利用了 Python 的 pickle 来实现序列化。模型、张量以及字典都可以用该函数进行保存； torch.load：采用 pickle 将反序列化的

2024年02月13日
浏览(40)
ChatGPT是否能够处理多模态数据和多模态对话？

ChatGPT有潜力处理多模态数据和多模态对话，这将进一步扩展其在各种应用领域中的实用性。多模态数据是指包含多种不同类型的信息，例如文本、图像、音频和视频等。多模态对话是指涉及多种媒体形式的对话交流，例如同时包含文本和图像的对话。 **1. 多模态数据处理：

2024年02月14日
浏览(52)