大世界模型 Large World Model (LWM)
大世界模型(LWM)是一种通用的大型上下文多模态自回归模型。它使用 RingAttention 在一个包含各种长视频和书籍的大型数据集上进行训练,可以进行语言、图像和视频的理解和生成。
目前的语言模型在理解“世界上难以用言语描述的方面”存在不足,而且在复杂的长篇任务中也很吃力。视频序列提供了语言和静态图像所不具备的宝贵的时间信息,因此非常适合与语言联合建模。这种模型可以发展出对人类文字知识和物理世界的理解,从而实现更广泛的人工智能辅助人类的能力。然而,由于内存限制、计算复杂性和数据集有限等原因,从数以百万计的标记视频和语言序列中进行学习是一项挑战。为了应对这些挑战,我们策划了一个包含各种视频和书籍的大型数据集,利用 RingAttention 技术对长序列进行可扩展的训练,并逐步将上下文大小从 4K 增加到 100万 标记。本文的贡献如下:
(a)最大上下文大小的神经网络: 我们在长视频和语言序列上训练了一个最大的上下文大小转换器,为困难的检索任务和长视频理解设定了新的基准。
(b)克服视觉-语言训练挑战的解决方案,包括使用掩码序列打包混合不同的序列长度、损失加权以平衡语言和视觉,以及模型生成的长序列聊天 QA 数据集。
(c)采用 RingAttention、屏蔽序列打包和其他关键功能的高度优化实现,用于数百万长度的多模态序列训练。
(d) 完全开源的 70亿 参数模型系列,能够处理超过 100万 标记的长文本文档(LWM-Text、LWM-Text-Chat)和视频( LWM、 LWM-Chat)。
这项工作为在海量长视频和语言数据集上进行训练铺平了道路,从而开发出对人类知识和多模态世界的理解以及更广泛的能力。
超过 1 小时的视频答疑
理解长视频。LWM 可以回答有关 1 小时以上 YouTube 视频的问题。
超过 100 万个上下文的事实检索
针头检索任务。LWM 在 1M 上下文窗口中实现了较高的精确度,其性能优于 GPT-4V 和 Gemini Pro。
长序列任意对任意(Any-to-Any) AR 预测
任意长序列预测。RingAttention 可以使用超大的上下文窗口进行各种格式的训练,如视频-文本、文本-视频、图像-文本、文本-图像、纯视频、纯图像和纯文本。请参阅 LWM 论文,了解包括屏蔽序列打包和损失加权在内的主要功能,这些功能可实现有效的视频语言训练。
用 RingAttention 制作多样化的视频和书籍模型
语境扩展和视觉语言训练。使用 RingAttention 将图书的上下文大小从 4K 扩展到 1M,然后对长度为 32K 至 1M 的各种形式的视觉内容进行视觉语言训练。下图显示了理解和响应复杂多模态世界查询的交互能力。
文本-图像生成
文本到图像。LWM 可根据文本提示自动生成图像。
文本-视频生成
文本到视频。LWM 可根据文本提示自动生成视频。
超过 1 小时的 YouTube 视频聊天
即使最先进的商用型号 GPT-4V 和 Gemini Pro 均出现故障,LWM 仍能回答有关 1 小时长 YouTube 视频的问题。每个示例的相关片段时间戳分别为 9:56(上)和 6:49(下)。
基于图像的对话
图像理解。LWM 可以回答有关图像的问题
论文
World Model on Million-Length Video and Language with Ring Attention
github:
https://github.com/LargeWorldModel/LWM文章来源:https://www.toymoban.com/news/detail-838299.html
模型
https://huggingface.co/LargeWorldModel文章来源地址https://www.toymoban.com/news/detail-838299.html
到了这里,关于AI最新进展介绍——大世界模型Large World Model (LWM)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!