Sora爆火 AI电商打开新世界的大门

这篇具有很好参考价值的文章主要介绍了Sora爆火 AI电商打开新世界的大门。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

当主播在直播间讲解冲锋衣时,她可以瞬移般转场到户外、雪山、漫天风雪中,展示冲锋衣的使用场景;当主播在在直播间卖连衣裙时,则可以自然地走进不同城市街头咖啡馆,展示日常场景中的穿着效果……

这不是魔法,也不是电影特效,而是文生视频模型与电商直播的结合。

OpenAI发布的Sora将视频生成能力带到了新的高度,相应地也带来了丰富的应用想象空间。

IDC中国研究总监卢言霞认为,视频生成将最先应用于短视频、广告、互娱、影视、媒体等领域。当前Sora生成的是1分钟的视频,对于行业已经是重大突破,只是下一步何时能生成2分钟5分钟以上的视频,不可预测。

显然,视频营销的生产方式将彻底重构,无论是将主播和商品置于虚拟场景中,还是为商品创作更丰富的营销素材,品牌方、营销公司、视频平台、消费者,将欣喜地迎接抑或无奈地接受一个光怪陆离的新世界。

背后的核心问题是:基于大模型的AI电商到底长什么样子?

最新消息,Sora已于2月26日开放对外申请。目前有两种方式能用上官方版的Sora,第一,著名艺术从业者优先;第二,加入Red Teaming(专家社区,为OpenAI 提供风险评估)。同时,字节跳动剪映旗下的AI创作平台DreaminaAI也即将上线视频生成能力,目前已开始接收内测申请,内测地址tywz.cc。

Sora爆火 AI电商打开新世界的大门,人工智能

01

从视频营销到情感电商

Sora改变了什么?

当下的电商营销视频主要包括直播切片和商品展示两类。比如极睿科技的产品iCut,可以自动从直播中识别商品卖点,剪辑片段、保留语音、生成字幕,还能自动增加配乐、转场特效、标题、侧幕、品牌Logo等元素供品牌分发。卖家可以一边直播一边实时获得海量短视频素材。

“我们的工作更多是从1到100生产素材,Sora则可以帮助我们从0到1生产素材。”极睿科技CEO武彬说。

武彬介绍,此前电商不能用视频生成模型,主要原因有三:第一,视频时长太短,无法进行商品讲解。第二,清晰度不够。第三,可控性较差。

从生成效果来说,Sora弥补了电商营销素材生成的部分短板。

在Sora展示出的demo中,清晰度和完整度很好,一分钟也是一个常见的视频长度,适合卖家去制作并发布到淘宝逛逛、京东种草秀或抖音上。

Sora可以生成吸引眼球的空镜,比如蝴蝶在海底飞。

Sora爆火 AI电商打开新世界的大门,人工智能

来源:Sora

还可以更换商品背景,配合展示。比如,在直播间讲解冲锋衣的主播,可以流畅地转场到户外、雪山、漫天风雪中,展示冲锋衣的使用场景。在直播间卖连衣裙的主播,则可以自然地走进都市街头咖啡馆,在日常场景中讲解商品。

Sora爆火 AI电商打开新世界的大门,人工智能

来源:Sora

极睿科技要做的则是将此前积累的商品、场景、细节等行业知识,组合成合适的Prompt,完成内容生产。

同为电商营销的奥创光年也希望通过AIGC提升原始素材的创建速度,“因为用户给的素材可能是不够的,再加上平台现在的判重机制更严格,内容是否起量有一定随机性,需要我们提高视频生成的质量和效率,加快创意方向的探索和迭代,我们也希望把原始素材生成的比例提高。”奥创光年研发负责人张红春指出。

他指出,Sora对prompt的遵循能力与理解能力令人惊讶,视频补全、穿插过渡都非常自然,不管是3D的、多角度的、一镜到底的,数据cover得很全,因此可以生成更多原始素材,实现单点突破。

从成本角度,AI比摄影师和模特的成本更低。按DALL·E-3生成单张图片的价格来初步估算(DALL·E-3生成一张1024×1024的照片收费0.04美元),Sora生成1分钟视频的成本大约500多元。但因Sora参数规模增大,推理效率的优化也需要时间,现阶段应高于这个预估价。对于大B商家来说,找人实拍1分钟视频的成本在1000-2000元,随着模型可控能力、推理能力的迭代提升,在效果满足的情况下,成本降低至预估价范围,AI应用可以更加普及。

但电商营销要求“货对版”,不管是细微的色差,还是装饰品1厘米的误差,对电商来说都算虚假宣传。为此,奥创光年通过商品实拍和背景生成分开的方式来生产视频。“一部分实拍、一部分合成。在商品已固定,展示环节已固定的情况下,围绕商品的所有的元素都可以通过Sora生成。”张红春说。

Sora解决不了货不对板的问题,意味着它并不真的理解物理世界,需要人的逻辑来弥补它的短板。”凌迪科技Style3D首席科学家王华民认为,“很多人夸大了Sora所代表的智能,它其实用海量数据,达到了很浅的智能,而且它的逻辑性和对物理世界底层的理解是有瑕疵的,最好由3D和物理仿真技术来提供整个逻辑关系,由AI来润色。现在的AI更适合扮演Copilot的角色。”

凌迪科技Style3D的思路是,提供从产品设计到销售展示的全链路3D+AI工具。

· 在设计阶段,凌迪科技Style3D提供的Style3D iCreate,帮助设计师或建模师以AI的发散性快速获取创意灵感;

· 确定款式后,使用Style3D Studio制作成精准的、可用于生产的3D虚拟样衣;

· 在上身展示环节,可以调用Style3D Studio资源库中的数字人模特,模特的表情、姿势、发型、配饰及背景都可进行调整;

· 基于3D虚拟样衣,结合AI优化,还可以一键生成电商上新图及详情页。整个过程最快仅需24小时。

“我们更偏向于做AI Agent,辅助从业者做好每一步。至于Sora所代表的视频生成,对我们肯定有帮助,但目前我想不出视频生成对设计师作用有多大。”王华民莞尔。

Sora爆火 AI电商打开新世界的大门,人工智能

图片来源:Style3D

武彬认为,Sora更多是能力上的补充,并不能改变to B的产品逻辑。

电商营销素材的制作包括三个环节:素材整理,智能生成,多渠道分发。Sora在视频生成环节起作用,但在素材整理和渠道分发上,还是使用原有工具。“对于我们来说,模型是什么样,智能到什么程度不重要,重要的是能够实现目标,那就是一个好的AI。”武彬表示。

Sora刚发布了demo,硅基智能已经开始训练demo中的数字人开口说话。

硅基智能的业务是为大V制造数字人分身直播,并且为MCN机构提供数字人主播带货。那么Sora将如何改变直播带货?

在硅基智能CEO司马华鹏看来,下一代电商不一定是货架电商形式,“不能因为你给马车加了一盏电灯,就认为这是电气化。”

他提到一家以情感、陪伴、信任为中心的AI企业——Character AI,使用方式类似于钢铁侠的智能助手Javis,钢铁侠问Javis:“今天跟女朋友第一次约会,给我推荐一套西装。”Javis提供备选产品,确定后就安排送货上门。在沟通中完成购买,相当于“情感电商”。

“我有一个非常中立、非常爱我、非常替我考虑的AI助理,我今天问他晚上吃什么,它会基于我的个人信息、喜好、体质进行推荐,我觉得这有可能是新的电商,每个人接下来都会有个助理,这个事情会会对所有商业产生非常大的颠覆。”司马华鹏如是说。

而数字人就是这个AI助理的载体,目前,硅基智能不仅将数字人克隆技术从8000元降到4元,而且Sora能生成场景和数字人原型,结合硅基的数字人训练技术,给内容产业带来的冲击是巨大的。此外硅基智能试水数字人短剧拍摄,通过数字人+AI工具,成本降低10倍。

02

视频生成群雄竞出

Open AI缘何一枝独秀?

2024年的视频生成领域热闹非凡。1月4日,阿里云的“全民舞王”(Animate Anyone模型)横扫社交媒体。1月11日,字节跳动发布文生视频模型MagicVideo-V2,支持生成4K、8K分辨率,以及不同绘画风格的视频。1月17日,腾讯AI实验室发布了视频生成模型VideoCrafter2。同一天,来自百度的团队发布了视频生成模型UniVG。

Sora爆火 AI电商打开新世界的大门,人工智能

在技术架构上,Sora相较于当下的视频生成模型,至少领先一代。

张红春介绍,像Pika、Runway,animatediff系列等视频生成模型,为充分地利用image diffusion的预训练权重和知识,都是在单帧图片的spatial模块后面,加一个时序(temporal)模块,来学习帧与帧之间的连贯性。这种通过空间和时间解耦的方式来建模,并非最优的视频表征和建模方法。

相比之下,不论是Google的W.A.L.T和Sroa,都在整个pipeline各模块上对空间(spatiotemporal)统一建模,同时借鉴DiT的思想,把unet替换为transformer,提升模型scaling up的能力;相对W.A.L.T,Sora在数据质量、数据多样性、多尺寸多分辨率等方面,又做了很多工作,多因素的累加让最终效果一骑绝尘。

Sora爆火 AI电商打开新世界的大门,人工智能

来源:Sora技术文档

从大语言模型到多模态大模型,核心难点是把各个模态转成token喂到语言模型中去。张红春介绍,文本天然是token化的,图片和视频也有压缩方式进行token化,比如谷歌的MAGVIT;音频领域,谷歌也推出音频生成技术做底层的音频token化。所以谷歌和OpenAI都储备了音频、视频、图片、文本的token化技术。

但是国内目前谈论较多的是文本和图片的token化,音频、视频的token化能力还不多见。

Sora爆火 AI电商打开新世界的大门,人工智能

来源:Google

XR创业者谢明炫认为,Sora展示了一种实时生成数字内容和虚拟世界的可能性,这让虚拟空间会成为新一代的大众媒介,取代短视频平台。

元宇宙的难点在于数字内容的生产效率太低——先要3D建模、贴图,再到游戏引擎中去制作,过程复杂,门槛过高。Sora的机制则是一种全新渲染引擎的可能性,以后的内容制作方式可以基于提示词创建3D内容。基于Sora,数字内容的生产中,脚本是自然语言,而不是编程语言,大幅降低数字世界的门槛,每个人都可以去很快速的去建造一个数字世界。

至于Sora自身的发展方式,大多从业者的共识还是,Sora还会被塞到大语言模型GPT-5中,形成类似谷歌Videopoet的产品形态。“理论上Sora应该是放到上下文里面去,基于更长的上下文去做理解推理、生成和交互。语言模型最适合做基础,也最适合做各个模型之间的大一统,放到语言模型中才能更好和人交互。”张红春总结。

文字生成领域没有太成熟的商业模式,以至于Open AI也不确定GPT生成的文字应该如何定价。但是视频生成有非常成熟的商业模式,一个短视频能卖多少钱,一部电影/电视剧多少钱,都有对应标准。“Sora开放后,如果测评好,千亿美元收入是可以的。按照市销率几十倍来估算,很容易做到万亿市值,我觉得这个事情并不难。”司马华鹏表示。

“视频生成这个路径会给OpenAI会带来非常大的收入,我预计会超过千亿美元。”司马华鹏补充。

回到Sora背后的Open AI,为何它的模型能够一枝独秀?

有国内AI企业高管告诉亿邦动力,2019年他试图挖一个OpenAI员工。沟通中他介绍,我们的愿景是帮助人类从碳基走向硅基。OpenAI员工回复,我们的愿景是创造上帝。

03

技术路线见顶

AI之王的盛世隐忧?

另一方面,相当数量的AI从业者看到Sora背后的技术隐忧。

OpenA遵循“大数据、大模型、大算力”的技术路线,把Scale当作核心价值观之一:我们相信规模——在我们的模型、系统、自身、过程以及抱负中——具有魔力。当有疑问时,就扩大规模,Sora就是这一思路的代表。

但王华民认为,很多从业者都看到了这一技术路径的上限,震惊于对Sora一边倒的赞美。

OpenAI的能力突破来自于率先使用了前人没用过的数据,数据量可以很快上涨。但大模型需要的数据量呈指数级增长,而全球的高质量语言数据预计将于2024年用尽。“我们对数据量太过乐观,全球数据上限会比算力上限更早到来。”王华民分析。

数据量达到上限,暴力美学的技术路线也将达到上限,而机器合成的数据会让模型效果变差,我们的不少访谈对象都认同这一观点。

Sora爆火 AI电商打开新世界的大门,人工智能

高质量语言数据耗尽速度

来源:科技博主Dwarkesh Patel

Meta首席科学家杨立昆也认为,随着数据量见顶,模型性能会趋于饱和,我们需要其他维度的突破,要依靠科学研究,而不是追求数据量的增长。“现阶段没有这种技术能让AI像婴儿观察世界一样来学习。我们正在研究这个问题,希望得到突破。

2023年,杨立昆提出一个新构思,即根据大脑运行机制,建立一个端到端的仿生架构,包含6个核心模块:配置器、感知模块、世界模型、成本模块、参与者模块和短期记忆模块,他基于该理念设计出V-JEPA“非生成模型”。

这至少代表暴力美学路径之外的另一条路径。在王华民看来,“杨立昆在做的事情,我们不敢保证他是不是能做成,但起码他们团队对这些事情是有认知的,知道现有的问题在哪。如果你连问题是什么都不知道,那就根本不可能去解决它。”

Sora爆火 AI电商打开新世界的大门,人工智能

杨立昆的自主智能系统的架构示意图

来源《通向自主机器智能的路径版本0.9.2, 2022-06-27》

技术发展是非线性的,一个技术路线走到一定程度就会停止,之后会有新技术路线冒出来,超越它,达到更高的程度。“AI也是一样,Sora这一浪目前看是到不了理解物理,实现AGI的程度,后面会有新技术出来把它覆盖掉,最终我们是可以把AGI或者世界模型做出来的。”王华民总结。

没人知道OpenAI在想什么,“Sora发布前,外界并不知道他们在干什么,做到什么程度。”有创业者告诉亿邦动力,“OpenAI内部已经军事化管理,OpenAI的模型不止Sora一种,但大家并不知道有什么,而且他们在深度使用这些模型。”

或许在新一轮技术浪潮到来之前,我们期待Sora能在更多的场景中落地。文章来源地址https://www.toymoban.com/news/detail-838507.html

到了这里,关于Sora爆火 AI电商打开新世界的大门的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Generative AI 新世界 | 扩散模型原理的代码实践之采样篇

    本期文章,我们一起来探究生成式 AI 这一火热的新知识领域。 目前计划有三个大方向: 代码深度实践方向。例如用代码完整诠释 Diffusion 模型的工作原理,或者 Transformer 的完整架构等; 模型部署和训练优化方向。例如尝试解读 LMI、DeepSpeed、Accelerate、FlashAttention 等不同模型

    2024年04月10日
    浏览(44)
  • 【GAI】红杉美国生成式AI:一个创造性的新世界

    红杉美国官网发表了最新一篇题为《Generative AI: A Creative New World》的文章译稿,,原文作者是红杉的两位合伙人:Sonya Huang和Pat Grady,有意思的是在文章作者一栏,赫然还写着GPT-3的大名,并且文章插图也是用Midjourney生成的,这篇文章本身就是AIGC的一个落地表现。以下是原文

    2024年02月09日
    浏览(45)
  • Generative AI 新世界 | Falcon 40B 开源大模型的部署方式分析

    在上期文章,我们探讨了如何在自定义数据集上来微调(fine-tuned)模型。本期文章,我们将重新回到文本生成的大模型部署场景,探讨如何在 Amazon SageMaker 上部署具有 400 亿参数的 Falcon 40B 开源大模型。 亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技

    2024年02月08日
    浏览(50)
  • Amazon Generative AI 新世界 | 基于 Amazon 扩散模型原理的代码实践之采样篇

    以前通过论文介绍 Amazon 生成式 AI 和大语言模型(LLMs)的主要原理之外,在代码实践环节主要还是局限于是引入预训练模型、在预训练模型基础上做微调、使用 API 等等。很多开发人员觉得还不过瘾,希望内容可以更加深入。因此,本文将讲解基于扩散模型原理的代码实践,

    2024年02月06日
    浏览(60)
  • 欢迎来到新世界

    (1) 我去年对技术的发展是比较灰心的: 云原生:技术一直动荡,SOA-Servless、Docker-WASM、GitOps+CICD+DevOps 云计算:在中国从公有云走向了私有云,乃至金融云、国资云、政务云等等N种云 SaaS:去年全球SaaS新贵们纷纷下跌估值/市值30%-60%,中国SaaS产业和投资也都嘿嘿嘿 大数据

    2024年02月08日
    浏览(47)
  • ChatGPT与AIGC,新世界的创造者

    AI的进步是惊人的,但随着 AI技术的发展,人们的创造性和创造性也受到了极大的质疑,很多人都开始利用 AI来进行自己的作品。所以,人工智能技术已经发展到了何种程度? 我们造了众神,他们的束缚也会解开。 你在人工智能眼中是怎样的?这段时间,网络上又多了一项新

    2024年02月11日
    浏览(45)
  • 探索未来量子计算的新世界:微软Q编译器

    项目地址:https://gitcode.com/microsoft/qsharp-compiler 在计算机科学的前沿,量子计算正逐渐揭开其神秘的面纱,而微软的Q#编译器则是开发者进入这一领域的关键工具。这是一个开源项目,旨在帮助程序员创建、编译和运行量子程序,从而推动量子算法和应用的发展。 Q#编译器是微软

    2024年04月17日
    浏览(54)
  • ChatGPT创造的未来:150+个Prompts助你玩转新世界

    介绍:👉 最常使用的 prompt,用于优化文本的语法、清晰度和简洁度,提高可读性。 指令: 作为一名中文写作改进助理,你的任务是改进所提供文本的拼写、语法、清晰、简洁和整体可读性,同时分解长句,减少重复,并提供改进建议。请只提供文本的更正版本,避免包括

    2023年04月20日
    浏览(41)
  • 合作伙伴专题|BreederDAO 和 NEAR 达成合作,探索想象新世界

    BreederDAO 宣布与 NEAR 协议建立了新的合作关系,NEAR 协议是一个经过认证的、气候零负荷、采取了权益证明机制的一层区块链,旨在实现无限的可扩展性、安全性以及帮助用户和开发人员的轻松上手,NEAR 通过其革命性的分片技术实现了这一点。 社区驱动 NEAR 的使命是:开发者

    2024年02月16日
    浏览(55)
  • [下载演讲稿]数字藏品与元宇宙存储—数字新世界的“土壤”

    和上次《【下载】元宇宙存储 演讲稿》相比,增加了: 1、两厅印发的《关于推进实施国家文化数字化战略的意见》,对数字藏品的发展有积极促进作用; 2、NFT和数字藏品的分类(新玩法+高质量体验+守诺) 受朱嘉明老师《朱嘉明:数字经济和非同质时代——NFT,虚拟需求

    2023年04月09日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包