AI最新进展介绍——大世界模型Large World Model (LWM)

8月前作者：凭良心做事，不误导，不坑人分类：Toy博客阅读(59) 违法举报

这篇具有很好参考价值的文章主要介绍了AI最新进展介绍——大世界模型Large World Model (LWM)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大世界模型 Large World Model (LWM)

UC Berkeley

大世界模型（LWM）是一种通用的大型上下文多模态自回归模型。它使用 RingAttention 在一个包含各种长视频和书籍的大型数据集上进行训练，可以进行语言、图像和视频的理解和生成。

目前的语言模型在理解“世界上难以用言语描述的方面”存在不足，而且在复杂的长篇任务中也很吃力。视频序列提供了语言和静态图像所不具备的宝贵的时间信息，因此非常适合与语言联合建模。这种模型可以发展出对人类文字知识和物理世界的理解，从而实现更广泛的人工智能辅助人类的能力。然而，由于内存限制、计算复杂性和数据集有限等原因，从数以百万计的标记视频和语言序列中进行学习是一项挑战。为了应对这些挑战，我们策划了一个包含各种视频和书籍的大型数据集，利用 RingAttention 技术对长序列进行可扩展的训练，并逐步将上下文大小从 4K 增加到 100万标记。本文的贡献如下：

(a)最大上下文大小的神经网络：我们在长视频和语言序列上训练了一个最大的上下文大小转换器，为困难的检索任务和长视频理解设定了新的基准。

(b)克服视觉-语言训练挑战的解决方案，包括使用掩码序列打包混合不同的序列长度、损失加权以平衡语言和视觉，以及模型生成的长序列聊天 QA 数据集。

(c)采用 RingAttention、屏蔽序列打包和其他关键功能的高度优化实现，用于数百万长度的多模态序列训练。

(d) 完全开源的 70亿参数模型系列，能够处理超过 100万标记的长文本文档（LWM-Text、LWM-Text-Chat）和视频（ LWM、 LWM-Chat）。

这项工作为在海量长视频和语言数据集上进行训练铺平了道路，从而开发出对人类知识和多模态世界的理解以及更广泛的能力。

超过 1 小时的视频答疑

lwm 大世界模型,人工智能
理解长视频。LWM 可以回答有关 1 小时以上 YouTube 视频的问题。

超过 100 万个上下文的事实检索

lwm 大世界模型,人工智能
针头检索任务。LWM 在 1M 上下文窗口中实现了较高的精确度，其性能优于 GPT-4V 和 Gemini Pro。

长序列任意对任意(Any-to-Any) AR 预测

lwm 大世界模型,人工智能
任意长序列预测。RingAttention 可以使用超大的上下文窗口进行各种格式的训练，如视频-文本、文本-视频、图像-文本、文本-图像、纯视频、纯图像和纯文本。请参阅 LWM 论文，了解包括屏蔽序列打包和损失加权在内的主要功能，这些功能可实现有效的视频语言训练。

用 RingAttention 制作多样化的视频和书籍模型

lwm 大世界模型,人工智能
语境扩展和视觉语言训练。使用 RingAttention 将图书的上下文大小从 4K 扩展到 1M，然后对长度为 32K 至 1M 的各种形式的视觉内容进行视觉语言训练。下图显示了理解和响应复杂多模态世界查询的交互能力。

文本-图像生成

lwm 大世界模型,人工智能
文本到图像。LWM 可根据文本提示自动生成图像。

文本-视频生成

lwm 大世界模型,人工智能

文本到视频。LWM 可根据文本提示自动生成视频。

超过 1 小时的 YouTube 视频聊天

lwm 大世界模型,人工智能

即使最先进的商用型号 GPT-4V 和 Gemini Pro 均出现故障，LWM 仍能回答有关 1 小时长 YouTube 视频的问题。每个示例的相关片段时间戳分别为 9:56（上）和 6:49（下）。

基于图像的对话

lwm 大世界模型,人工智能
图像理解。LWM 可以回答有关图像的问题

论文

World Model on Million-Length Video and Language with Ring Attention

github:

https://github.com/LargeWorldModel/LWM

模型

https://huggingface.co/LargeWorldModel文章来源地址https://www.toymoban.com/news/detail-838299.html

到了这里，关于AI最新进展介绍——大世界模型Large World Model (LWM)的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【UE】大世界子关卡StreamingLevel加载流程源码浅析-虚幻4

受限于硬件，当项目需要制作大世界的时候，整张大地图无法也没必要全部加载进内存。和所有支持大世界的引擎一样，UE采取了分块加载的方式：除了一个持久关卡（PersistentLevel）的加载以外，采用的都是运行时动态加载的方式，我们称这些关卡为子关卡或者流关卡（Stre

2024年02月13日
浏览(38)
制作unity大世界场景编辑的一点心得和注意事项（场景地编）

制作unity大世界场景的一点心得和注意事项（地编注意事项）这是一个项目的整个注意事项，所注意点都是根据制作的项目整理的。所以在做任何项目的时候要注意举一反三。 1，检查分组里的各种检查（这里的分组是每一个场景尤其是大世界地图制作人员比较多需要合理规

2024年02月07日
浏览(57)
CID/clickid最新进展及原理介绍

截止2022年12月，除了首批成为阿里官方授权cid的点点诺外，其他多家服务商也拿到了阿里官方授权，引力、剧星、凯丽隆、优矩、联世传奇、麦凯莱等。阿里官方授权方式：淘客链路，透出unid字段，阿里惩罚系统对授权淘客开白。因为透出了unid，这种方式一跳二跳全支持，

2024年02月09日
浏览(57)
一文详解视频扩散模型的最新进展

最近，AIGCer在使用一些视频生成工具，对其中的技术点有了强烈兴趣，正好搜索到了这篇视频扩散模型综述，方法果然浩如烟海，读下来感觉受益良多，分享给大家。最近,人工智能生成内容（AIGC）浪潮在计算机视觉领域取得了巨大成功，扩散模型在这一成就中发挥着关键作

2024年02月02日
浏览(46)
AI Transformer：最新进展及其应用场景解析

作者：禅与计算机程序设计艺术随着人工智能（AI）技术的飞速发展，深度学习（DL）和Transformer模型已经成为最具代表性的两个研究方向。近年来，两者在自然语言处理、图像识别、文本生成等领域均取得重大突破，在各行各业产生了广泛影响。本文将从最新研究成果和相关

2024年02月07日
浏览(65)
ChatGPT-4.5：AI技术的最新进展

✍创作者：全栈弄潮儿 🏡 个人主页：全栈弄潮儿的个人主页 🏙️ 个人社区，欢迎你的加入：全栈弄潮儿的个人社区 📙 专栏地址：AI大模型 OpenAI最新发布的GPT-4，在聊天机器人的功能上取得了显著的改进。虽然GPT-4仍处于早期阶段，但有传言称该模型的新版本ChatGPT-4.5将于

2024年02月08日
浏览(45)
ChatGPT：开放AI平台的最新进展和功能

第一章：引言在过去的几年中，人工智能技术取得了长足的发展，其在各个领域的应用也日益广泛。而在AI技术中，自然语言处理（NLP）一直是备受关注的领域之一。ChatGPT作为OpenAI的开放AI平台上的一项重要技术，为人们提供了一个强大而多功能的对话模型。在本文中，我

2024年02月11日
浏览(39)
最新本地大模型进展#Chinese-LLaMA-2支持16k长上下文

‍‍ Hi，今天为大家介绍最新的本地中文语言模型进展。 [2023/08/25] Chinese-LLaMA-2发布了新的更新：长上下文模型Chinese-LLaMA-2-7B-16K和Chinese-LLaMA-2-13B-16K，支持16K上下文，并可通过NTK方法进一步扩展至24K+。这意味着在使用这些模型时，你可以获得更长的上下文信息，从而提高模

2024年02月10日
浏览(61)
WAVE SUMMIT 定档8月16日，或将曝百度飞桨、文心大模型最新进展

🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 2023年全球AI浪潮迭起，大语言模型热度空前，生成式人工智能为千行百业高质量

2024年02月14日
浏览(39)
推荐系统[一]：超详细知识介绍，一份完整的入门指南，解答推荐系统相关算法流程、衡量指标和应用，以及如何使用jieba分词库进行相似推荐，业界广告推荐技术最新进展

搜索推荐系统专栏简介：搜索推荐全流程讲解（召回粗排精排重排混排）、系统架构、常见问题、算法项目实战总结、技术细节以及项目实战（含码源）专栏详细介绍：搜索推荐系统专栏简介：搜索推荐全流程讲解（召回粗排精排重排混排）、系统架构、常见问题、算法项目

2024年02月13日
浏览(55)