为什么现在的视频都会加入自动字幕功能?

这篇具有很好参考价值的文章主要介绍了为什么现在的视频都会加入自动字幕功能?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        最近上油管和billbilli等视频网站,会发现部分视频添加了自动字幕生成甚至翻译功能(可能早就有,但是最近我才注意到)。前几天在登录T开头的微博网站,也发现有自建聊天室功能,加入一个聊天室以后又发现聊天室的发言会自动生成实时字幕。因为笔者也参与过一些NLP、语音识别、图谱、自动翻译的研究工作,发现这些功能后觉得很有意思,做过AI的同学都知道这一类语音识别和自动翻译会消耗算力,因此笔者就在思考这些互联网公司为什么会去消耗大量成本做这些功能,本文就是笔者自己对这问题的一些分析思考,未做原厂调研,不能做为严谨的科研文献参考。

        1.自动字幕生成和自动翻译功能分析

        我们先看看,自动字幕生成大致会用到几个工具:语音识别(负责语音转文字的识别)、自然语义处理(用于对生成的文字和词进行语义级的纠错,关键词提取)、知识图谱(其实是和自然语义处理相关联的,会根据不同schema的图谱进行更准确的纠错,并支撑自动翻译)、自然语言生成(可以算作纠错后的句子、段落生成对应的文本,当然根据地域会生成简体或者繁体中文)、自动翻译(这个没啥好说的)。

        2.工程落地其他难点

                2.1视频因为有分镜头和转场,所以一个完整的镜头可能是一个完整的句子或者段落,一一个完整的句子和段落可能也会对应若干个镜头。所以生成的字幕如果要和镜头相匹配,还需要对视频进行一定的图片切帧,进行图像识别或者分析,笔者猜测如果是口述可以进行一定程度的唇语分析(但是不清楚现在有没有人或者团队做过类似的训练)。但是如果是有动画、物体拍摄、逻辑递进等场景,就需要对视频主要目标,比如抖音跳舞的美女、科普演讲、手机评测等一类进行简单schema的构建,才能更好的讲生成文本和视频分镜头做更好的结合。

                2.2如果是一些逻辑性不强或者没有提前构建schema的视频,比如电影介绍一类就很难去提前构建视频的图谱本体,笔者猜测这种生成的字幕可能就需要人工干预了,但是厂商如果为了控制成本,不见得会给所有的视频提供自动字幕生成或者自动翻译功能。这就是我们会看到不是所有的视频都有字幕选项。

                2.3还有部分是视频制作者本身就添加了字幕,但是厂商也提供了自动字幕生成功能,这个时候从技术角度看,通过对视频自带的字幕进行OCR提取,和自动生成的字幕进行比对纠错,这算是一个很好的免费训练方式。

        3.为什么要去做字幕自动生成和翻译

        通过1、2的分析,其实可以知道做字幕自动生成和翻译会有两方面的成本,一方面是算力的成本,一方面是开发成本,而且预计整个开发和迭代成本并不低。如果按照预训练或者构建schema的技术逻辑,笔者认为做这个工作的投入和产出是不成正比的,本身也很难做为成熟的ToB技术创新或者技术输出变现。因为本身在算法原始创新层面没有太多创新,只是在落地工程代码层面做了些工作。

        所以笔者认为互联网厂商做这些功能不能从技术创新角度去看,而应该从商业逻辑来看。做过产品经理的同学都知道,在做产品设计的时候,会将新功能分为必备、反向、无差异等属性。如果按照产品组件的角度去看,毫无疑问这两个功能大概率属于无差异功能。也许有同学会反驳翻译功能对自己还是很有用的,这个问题稍后会补充笔者的看法。但是如果把网站平台看做一个系统,这个系统对应了若干场景,每个场景是由不同组件完成(其实这里的实现已经接近于体系工程的自涌现了)。我们对场景进行研究就会发现一些有趣的事了,但是在这之前我还是想做些概念的分析和阐述。

                3.1视频和微博厂商的盈利逻辑是什么?

                很多同学会说互联网厂商盈利不就那几招,广告、抽成、订阅、股票等等。有经验的同学会说互联网厂商的盈利根本是用户流量。但是我们再分析下去,用户流量是什么?用户数吗,有些新型厂商为了快速融资会通过地推、促销、广告、裂变(最有名的就是PDD了)等手段快速扩大注册用户数,但是注册用户数不等于流量,因为有些用户注册了发现不感兴趣,今生今世可能都不会登录了。那是有效用户数吗?那什么是有效用户数?付了费的算有效用户吗?每天都上来看看的算有效用户吗?每天花费大量时间使用一个app的算有效用户吗?

                如果是在互联网厂商待过的同学都明白,我们很难用以上的一些逻辑来真正准确定义“有效用户流量”。是在于我们的RFLP物理到抽象逻辑的建模方法,无法准确描述C端用户这种几乎是混沌的一种群体。问题出在哪儿?看过《乌合之众》的同学就知道,人这种个体的分析本来就属于人文和社会科学领域,如果强行用自然科学的思维去分析建模一开始方法就没有用对(当然当今大量技术和方法论本身就是跨学科,笔者反对的只是用单一的纯理工科的方法去分析问题,并不是反对这个过程不使用自然科学的方法论和技术)。

                3.2如何按照跨学科思维去分析“有效用户流量”?

                笔者这里尝试用行为心理学的“上瘾机制”来描述和定义“有效用户流量”,个人认为有效用户流量是指用户群体将注意力集中于一个事物,并且感知和认知层都专注于该事物,并投入大量成本最终形成上瘾的现象。因为行为心理学本身就是跨学科专业,除了采用了经典心理学的理论外,还参考了社会学的部分群体理论,经济学的部分原理,并衍生出了行为经济学等专业。但是笔者认为最重要的一点是,用户群体他的感知不但要集中于一个事物,认知也要集中于同一个事物,才能形成上瘾并转化为“有效流量”,系统工程和心理学里面都提到过人的短期记忆和长期记忆模型,AI的感知和认知分层也是基于该理论进行构建。其中上瘾机制就是为了获得短期快感,不断加大刺激和专注,但是对app的上瘾机制形成,绝不是和麻醉药品、光顾失足妇女一样是单纯通过感知层刺激能形成的。《认知科学导论》里面也提到对于某件事情的成瘾,比如玩手机和吸毒的原理类似,但是玩手机等事件的成瘾是需要大脑认知的参与的。(这部分阐述比较抽象,有些描述逻辑性还不够,以后有时间再去完善了)

                3.3如何培养有效用户的成瘾场景?

                通过前面的分析,我们梳理几个结论:对于互联网厂商的平台必须形成上瘾才能算是有效;这一类上瘾不是吸毒,不仅是感知的集中,也必须在认知上集中注意力;抛开场景谈技术无意义,群体的形成必须是有对应的场景设计和分析(比如周围的大学生都在刷抖音,你不刷就很难融入群体,本身就无法获得社会认同感。周围的单身汉都在刷soul撩妹子,你不刷就会造成对于单身的恐慌或者对约炮的向往)。

                所以牛X的厂商产品经理或者总监,一定是场景设计或者预期描述的高手(但是笔者对这一点深为厌恶,从科学上看预期描述的因果关系和归因关系是两回事,从道德上看商业主义绑架了人的天性,缺乏道德的设计无论如何都应该被唾弃)。

                我们回过头来看视频厂商,视频分为长视频和短视频,长视频有爱奇艺、油管、billibilli等以科普、评测、综述、影视剧为主的平台,短视频有抖音等平台(还有其他平台,但是笔者不刷短视频,也懒得去调研)。表面上看短视频刻意将时间控制在秒级为单位,但实质原因是短期感知刺激分泌的多巴胺数量和快感不是线性正比的,随着多巴胺持续分泌快感也是呈波浪形形态,所以将短期的刺激再拆分成更短的时间维度,就可以保证每个短视频的切换,都会引起快感呈一波一波的上升趋势,避免用户的快感疲劳。那为什么王者荣耀就不能以秒为单位来做一局呢,是因为对抗类游戏需要注意力不断集中,不断做出新的决策模型,多巴胺的持续分泌会消减快感疲劳,这就是为什么认知层的参与在成瘾过程中这么重要。但是如果是王者荣耀连招很熟练的高手打得太多可能就无法获得这么多快感,是因为连招的模型库已经进入短期模型库,不需要学习或者新的研判了(系统工程的一些课程里面会详细阐述人的短期记忆模型库和长期记忆模型库,这里不做过多阐述)。还有一类比如羊了个羊、植物大战僵尸玩法简单的游戏,就需要通过时间倒计时方式施加紧迫感,来加强注意力机制,避免快感疲劳。

                这个时候我们再来看长视频平台,致命的场景问题出现了。我们在看长视频的时候,获得感知的方式很多,但是主要是视觉和听觉,但是因为缺乏交互,所以认知层参与的很少。这就造成用户在看一个视频的时候,很难长时间将感知和认知都集中于这个视频上,有时候可能是需要做其他事,所以打开视频也只是听声音为主(笔者不建议看学习视频的时候这样干),有时候可能是觉得视频的前叙还没有讲到让自己感兴趣的内容,也许是纯属开着听个响(奈飞、葫芦的影视剧不同,有时间我们可以单独再分析一下)。那这些场景下,客户如何成瘾并转化为有效用户呢?实际上很多长视频平台意识到了这个问题,也有意无意做了很多尝试,比如在视频中间插播广告,你真以为厂商是想赚那点广告费?在视频中加入抽奖或者其他互动环节。但是这毕竟是阶段性的,平台不能每隔30秒就来一次吧!

                所以这个时候我们再来看自动字幕生成,有趣的事情发生了,图片、文字、声音、触觉采集的方式不同,在人体传输的神经链路不同,甚至在大脑的映射区都是不同的。这个不是我说的,有兴趣的可以翻看《认知科学导论》,里面有大量的医学数据和测试报告,实质上手、脚、舌头和脸触碰同一个物体表面所传递和映射的方式都是不同的(有兴趣的同学可以结合性心理学做些研究^_^,别说我猥琐哈)。因此当我们去同时看视频、文字,听声音的时候,传输到大脑的映射区和链路就有了三条不同的方式。特别是和视频、声音的短期刺激不同,文字在人的进化史中,和长期记忆模型库、认知层是高度紧密相关的。无形中就构建了感知层和认知层的同时参与,同时因为认知层的部分参与,感知层视觉和听觉的也不再分散,短期刺激的快感疲劳会通过视觉、听觉两条链路做部分抵消。

        4.综上所述,因为自动字幕的生成,牵引了认知层的参与,并带动了多个感知器官的参与。用户的注意力更加集中,更容易上瘾并形成有效访问。这就是为什么聊天室如果有自动字幕生成,很多人大概率会花更多时间去看聊天室聊了什么(当然这只是相对以前而言,不代表绝对时间),至于为什么说自动翻译也是属于无感知功能呢,因为去看大段外语长视频的,大概率是为了学习了解新知识,这部分人群如果你不会外语还是去看盗版电影或者找相关翻译好的论文算了。

        最后,这不是严谨的科研论文,只是笔者的个人随笔分析,仅供参考。文章来源地址https://www.toymoban.com/news/detail-400883.html

到了这里,关于为什么现在的视频都会加入自动字幕功能?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《让云落地 云计算服务模式》第一章 [为什么是云计算,为什么是现在] 学习

    “时间会带来标准和最佳实践” 1.云计算的由来 云计算是从中央主机时代,向个人计算机时代诞生带来的分布式主从架构时代,以及企业能够通过覆盖全球的计算机网络联系世界的互联网时代的自然发展。 每一次新的技术革命都会伴随着阻力。早期的试用者和风险承受者会

    2024年04月28日
    浏览(46)
  • 我为什么现在不玩腾讯的游戏了?

    以前网络也不是很发达,大家基本都是玩的腾讯的游戏,哪里知道什么steam,也不会知道什么主机游戏,但是随着见识的增长,我在17年的时候正式接触到单机游戏,没错,就是17年,当时就觉得wc,这游戏看着就不错,然后回想起来以前玩的腾讯的游戏,瞬间觉得黯然失色。

    2024年02月12日
    浏览(61)
  • 什么是云仓?为什么现在越来越多电商商家合作云仓?

    随着物流行业的发展,相信越来越多的人逐渐了解云仓行业是什么,也许很多人会问:云仓一对一发货是一种什么样的模式?这个问题想必之前在其他文章里看过,所以今天在这里详细说一下一代云仓。 简单来说,云仓一对一配送是一家第三方仓储公司,根据自身优势,为电

    2024年02月11日
    浏览(53)
  • 为什么无人机现在运用的越来越广泛呢?

    随着科技的飞速发展,无人机已经逐渐从科幻梦想走进现实,成为我们生活中不可或缺的一部分。它们不仅改变了我们的生活方式,还带来了无尽的惊喜与可能性。今天,让我们一起来探讨无人机的魅力与前景吧! 航拍美景: 无人机配备了高清摄像头,可以轻松捕捉到那些

    2024年04月08日
    浏览(95)
  • 为什么现在越来越多的企业选择云计算?

            云计算是用于描述在互联网上发生的一类新的基于网络计算的术语。 这些平台通过提供非常简单的图形界面,隐藏了用户和应用程序的基础架构的复杂性和细节。 云对用户和应用程序是透明的,它们可以以多种方式构建。 一般来说,它们建立在PC服务器集群上,

    2024年02月08日
    浏览(81)
  • 一键绕过ID锁激活,为什么很多人都会失败?绕ID这一篇就够了

    最近阳了所以暂时断更,你们也要注意身体,最好不要阳 现在绕ID的方法已经非常完善,一个小白选手只要有设备就可以正常绕过ID, 总的来说绕ID分为两个步骤:第一步是手机的越狱 ,这里只能是用checkra1n越狱(不是用爱思越狱,切记只能checkra1n,需准备一台Mac系统的电脑

    2024年01月15日
    浏览(162)
  • 现在都在说 Docker 好,为什么我一用就出现这么多问题?查了一宿才解决!

    #配置国内源进行docker安装 报错 HTTP Error 404 - Not Found 原因:由于配置国内镜像源时,把地址写错了,导致后面安装docker提示HTTP Error 404 解决方法: 1)进入到 /etc/yum.repos.d目录下   如果你想学习docker教程,我这边给你推荐一套视频,这个视频可以说是B站播放全网第一的docker教

    2024年02月11日
    浏览(46)
  • 为什么TM服务器要安装php~ 现在服务器都用什么php环境,服务器安装php环境的作用是什么?

    \\\"想像力比知识更重要。因为知识是有限的,而想像力是无限,它包含了一切,推动着进步,是人类进化的源泉。 -- 爱因斯坦 为什么服务器要安装php~ 导读:今天来给各位分享关于服务器为什么安装PHP的相关内容,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开

    2024年02月16日
    浏览(68)
  • 电脑自动关机是什么原因?为什么电脑会自动关机?轻松弄懂

    电脑作为很多小伙伴学习、办公、娱乐的工具。在生活中已然是不可或缺的一部分,很多小伙伴在使用电脑的过程中,有时会碰到电脑自动关机的情况。电脑自动关机是什么原因?为什么电脑会自动关机?别担心,今天小编这篇文章就来帮你轻松弄懂电脑自动关机的原因。

    2024年02月12日
    浏览(64)
  • 为什么自动驾驶需要5G?

    什么叫自动驾驶? 自动驾驶分为6个等级: Level 0: 人工驾驶,无驾驶辅助系统,仅提醒。 Level 1: 辅助人工驾驶,可实现单一的车速或转向控制自动化,仍由人工驾驶(如定速巡航、ACC)。 Level 2: 部分自动驾驶,可实现车速和转向控制自动化,驾驶员必须始终保持监控(

    2024年02月08日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包