7月第一讲,LLaMA模型指令微调字节跳动多模态视频大模型-Toy模板网

这篇具有很好参考价值的文章主要介绍了7月第一讲,LLaMA模型指令微调字节跳动多模态视频大模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Valley: Video Assistant with Large Language model Enhanced abilitY 大家好，我是卷了又没卷，薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师，带来最新的前沿AI知识和工具，包括AI相关技术、ChatGPT、AI绘图等，欢迎大家交流~。

7月第一讲,LLaMA模型指令微调字节跳动多模态视频大模型,llama,人工智能,深度学习

近期基于LLaMA微调的模型有很多，Alpaca，Vicuna都是基于ChatGPT等数据进行文本场景指令微调，LLaVA也使用图文对数据进行了图文场景多模态能力的扩展（这几个模型往期文章都有涉及，不清楚/感兴趣的可以看）。

而本文提到的Valley则是字节发布的视频场景多模态指令微调LLaMA模型。其中这几个指令微调版本的模型都大差不差，主要还是数据与训练的差异。本文描述Valley当然对标的是其类似模型LLaVA，原文introduction部分翻译修改后如下：在Valley中，我们遵循 LLaVA 的先预训练然后指令调整的流程，采用一个简单的投影模块作为视频、图像和语言模式之间的桥梁。我们采用 CLIP (Radford et al., 2021) 的 ViT-L/14 (Dosovitskiy et al., 2021) 作为视觉编码器（与LLaVA一致），然后提出一种时空池化操作来统一视频和图像输入的视觉编码（模型差异点）。通过更新投影模块进行预训练，以使统一的视觉嵌入与 LLM 保持一致，其中 Stable-Vicuna (Chiang et al., 2023) 由于其多语言能力而成为文章来源地址https://www.toymoban.com/news/detail-593397.html

到了这里，关于7月第一讲,LLaMA模型指令微调字节跳动多模态视频大模型的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！