SeamlessM4T—Massively Multilingual & Multimodal Machine Translation

这篇具有很好参考价值的文章主要介绍了SeamlessM4T—Massively Multilingual & Multimodal Machine Translation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列的文章,针对《SeamlessM4T—Massively Multilingual & Multimodal Machine Translation》的翻译。

摘要

如何创建Babel Fish,一个可以帮助个人在任何两种语言之间翻译语音的工具?虽然最近在基于文本的模型方面的突破已经将机器翻译的覆盖范围推到了200多种语言之外,但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说,传统的语音到语音翻译系统依赖于由多个子系统组成的级联系统来逐步执行翻译,这使得可扩展和高性能的统一语音翻译系统遥不可及。为了解决这些差距,我们推出了SeamlessM4T——大规模多语言和多模态机器翻译——一个单一的模型,支持多达100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译和自动语音识别。为了构建这一点,我们使用了100万小时的开放式语音音频数据来学习w2v-BERT 2.0的自监督语音表示。随后,我们创建了一个多模态的自动对齐语音翻译语料库,名为SeamlessAlign。经过过滤并结合人工标记和伪标记数据(总计406000小时),我们开发了第一个能够将语音和文本从英语翻译成英语的多语言系统。在Fleurs上,SeamlessM4T为翻译成多种目标语言设定了一个新的标准,在直接语音到文本翻译方面比以前的最先进技术提高了20%的BLEU。与强级联模型相比,SeamlessM4T在语音到文本中提高了1.3个BLEU点,在语音到语音中提高了2.6个ASR-BLEU点。在CVSS上,与用于语音转换的两级级联模型相比,Seamless M4T Large的性能增强了58%。对语音到文本翻译输出的初步人类评估显示出同样令人印象深刻的结果;对于英语翻译,24种评估语言的XSTS分数始终高于4(满分5)。对于英语方向,我们发现在24种语言中有7种语言比WhisperLarge-v2的基线有了显著改进。为了进一步评估我们的系统,我们开发了Blaser 2.0,在质量估计方面,与前代系统相比,它能够以类似的精度对语音和文本进行评估。经过稳健性测试,与当前最先进的模型相比,我们的系统在语音到文本任务中对背景噪声和说话者变化的处理效果更好(平均分别提高了38%和49%)。至关重要的是,我们评估了Seamless M4T的性别偏见,并增加了毒性以评估翻译安全性。与最先进的相比,我们报告翻译输出中的附加毒性降低了63%。最后,这项工作中的所有贡献——包括模型、推理代码、由我们改进的建模工具包Fairseq2支持的微调配方,以及重新创建SeamlessAlign未经过滤的47万小时的元数据——都是开源的,可以通过https://github.com/facebookresearch/seamless_communication访问.

1 引言

2 多模态翻译的社会技术维度

2.1

2.2

2.3

3 SeamlessAlign:自动创建语音对齐数据

4 SeamlessM4T模型

5 自动和人工评估

6 负责任的AI

7 社会影响与结论

人类交流是多感官的——我们接受来自几种模式的感官输入,以动态的方式处理信息。在多语言环境中,基于文本的机器翻译的进步产生了帮助个人用熟练程度较低的语言进行交流和学习的工具。也就是说,虽然NLLB等基础模型将T2TT推向了200种语言之外,但直接语音翻译尚未取得类似的进展。为了弥补这一差距,我们创建了一个大规模的多语言和多模态机器翻译系统,为下一代语音翻译技术铺平了道路。
使用新的数据和建模方法将S2ST、S2TT、T2TT和ASR组合在一个模型中,我们的主要贡献如下。首先,我们建立了一个与我们的语言覆盖范围相一致的新LID模型,并在新构思的SONAR(一个多语言和多模式句子嵌入空间)的帮助下进行语音挖掘,以创建一个超过47万小时的自动对齐语音翻译语料库。通过融合四个构建块,(1)Seamless M4T NLLB,一个大规模多语言T2TT模型,(2)w2v BERT 2.0,一个在未标记语音音频数据上预训练的语音表示学习模型,(3)T2U,一个文本到单元序列到序列模型,和(4)HiFi GAN,一个用于从单元合成语音的多语言声码器,我们建立了一个统一的模型,涵盖了从100种语言到英语(100 eng)的S2ST,从英语到35种语言(eng-35),以及100 eng和eng-95语言的S2TT。值得注意的是,与之前在S2ST上的工作相比,SeamlessM4T能够执行从英语到35个方向的翻译,S2ST主要提供英语翻译,而不是英语翻译。在S2TT方面,SeamlessM4T在S2TT翻译方面比以前的最先进技术提高了20%的BLEU。对S2TT输出的初步人类评估显示了同样令人印象深刻的结果;对于英语翻译,24种评估语言的XSTS分数始终高于4(满分5)。对于英语方向,我们看到24种语言中有7种语言的Whisper-Large-v2的基线有了显著改进。然后,我们评估了我们的模型的稳健性,发现Seamless M4T在背景噪声和扬声器变化方面比更具稳健性。通过还包括增加毒性水平和性别偏见的结果,我们希望激励未来针对缓解努力的工作。
为了促进可访问性,我们开源了我们工作的所有贡献,包括两种规模的模型,以确保即使是计算资源有限的研究人员也能使用我们的工作。在下一节中,我们通过关注Seamless M4T的下游可能性来讨论其潜在的社会影响。

7.1 增强世界准备度

我们生活的世界从未像现在这样相互关联——互联网、移动设备、通信平台和社交媒体的全球扩散使个人接触到比以往任何时候都更多的多语言内容。当前的社会秩序对一个人的“世界准备度”提出了要求,这是衡量一个人在多语言世界中的能力的指标。世界准备度最初是在语言学习的背景下发展起来的,它强调了能够用母语以外的语言进行交流的重要性,这既有工具原因(即就业或上学),也有文化原因(即成为全球公民)。也就是说,尽管我们认为语言习得应该仍然是提高一个人对世界的准备程度的关键机制,但我们承认,这样做需要许多人可能不具备的精神和物质资源。
SeamlessM4T支持的下游应用程序可以通过简化各种环境下的多语言交换,实现按需访问,以满足世界需求。正如T2TT在衔接多语言文本理解方面所取得的成就一样,Seamless M4T也可能对语音产生同样的效果。研究表明,与母语相反,在母语中,言语比阅读或写作更自然地习得,当涉及到外语时,这种趋势发生了逆转。换言之,在外语环境中,演讲通常被认为比阅读或写作更具挑战性。Seamless M4T支持的应用程序可以作为一种协同试点机制,支持用户进行多语言对话,并增强他们对语音密集交互的信心。随着基于语音的界面(即音频助手、语音备忘录、实时转录等)和听觉内容(即播客、有声读物、短视频等)越来越多地出现在人们的生活中,SeamlessM4T支持的下游应用程序可以提供更丰富多样的多语言体验,并且比基于文本的应用程序更自然、更动态。
从包容性的角度来看,Seamless M4T对多模态的关注可能会在增强那些有无障碍需求的人和那些语言包含多个写作系统的人的世界准备能力方面产生有意义的影响(如第2节所述)。对于许多缺乏阅读或写作技能,或无法依赖视力的人(即盲人或视力障碍者)来说,语音辅助技术对于他们如何沟通和保持联系至关重要。翻译语音的能力不仅使这些群体能够更全面地获得母语之外的信息,而且能够以更适合他们交际需求的方式进行翻译。此外,认识到某些语言可能存在脚本差异,SeamlessM4T提供了可供性,有助于规避多脚本难题。对于没有标准化书写系统的语言,对语音识别和翻译的投资可能有助于防止危害。我们希望我们的努力能够为这一重要运动作出贡献。

7.2 未来工作

与大多数技术一样,收益的分配因用户人口统计和社会状况而异。虽然我们证明Seamless M4T可以通过降低跨语言交流的障碍来增强世界准备能力,但一些用户在使用我们的工作时可能会比其他用户遇到更多困难。例如,与许多其他语音技术一样,Seamless M4T的ASR性能可能因性别、种族、口音或语言而异。此外,我们的系统在翻译俚语或专有语时的表现名词在高资源语言和低资源语言之间也可能不一致。
S2ST面临的另一个挑战是,与书面语言相比,语音取决于即时接收和反馈。换句话说,说话者在确定输出质量或在现场对话中进行“编辑”的能力有限。如果没有能力在反译或母语人士的帮助下进行计划和修订,S2ST在涉及误译或毒性时可能会带来更高程度的互动风险。我们敦促使用SeamlessM4T微调或构建产品的研究人员和开发人员批判性地思考可以帮助用户规避这些潜在障碍的设计功能。与此相关的是,我们认为SeamlessM4T驱动的应用程序最好被视为一种辅助翻译的增强设备,而不是一种取代语言学习或可靠的人类口译员需求的工具。这一提醒在涉及法律或医疗决策的高风险情况下尤其重要。
最后,语音不是口语文本,它包括一套韵律(即节奏、重音和语调)和情感成分,值得进一步研究。为了创建感觉有机和自然的S2ST系统,应将更多的研究转向保持表现力的输出生成。此外,Babel Fish的完美实现需要对低延迟语音翻译的研究进行更深入的投资。开发能够进行流式传输的系统(即,在输入句子呈现时逐步翻译输入句子)可能会增加此类系统在行业或教育环境中的采用。我们希望Seamless M4T为这两个研究领域开辟新的可能性。文章来源地址https://www.toymoban.com/news/detail-685879.html

到了这里,关于SeamlessM4T—Massively Multilingual & Multimodal Machine Translation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 利用大模型MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7实现零样本分类

    1、零样本分类:在没有样本标签的情况下对文本进行分类。 2、nli:(Natural Language Inference),自然语言推理 3、xnli:(Cross-Lingual Natural Language Inference) ,是一种数据集,支持15种语言,数据集包含10个领域,每个领域包含750条样本,10个领域共计7500条人工标注的英文测试样本,组成了

    2024年02月09日
    浏览(26)
  • 论文阅读:Multimodal Graph Transformer for Multimodal Question Answering

    论文名 :Multimodal Graph Transformer for Multimodal Question Answering 论文链接 尽管 Transformer模型 在视觉和语言任务中取得了成功,但它们经常隐式地从大量数据中学习知识,而不能直接利用结构化的输入数据。另一方面, 结构化学习方法 ,如集成先验信息的图神经网络(gnn),几乎无法

    2024年02月04日
    浏览(38)
  • Multimodal Sentiment Analysis论文汇总

    Year Title Network Publish Paper Code Read 2019 Multimodal Transformer for Unaligned Multimodal Language Sequences MulT ACL link link √ 2020 CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis CM-BERT ACM MM link link √ 2020 Integrating Multimodal Information in Large Pretrained Transformers MAG ACL link link √ 2020 MISA: Modality-Invariant and

    2024年02月06日
    浏览(37)
  • 多模态分析数据集(Multimodal Dataset)整理

    这里整理一下平时所用的多模态数据集以备之用,主要分为 多模态分类(情感分类,影视分类) 多模态问答 多模态匹配(检索) 多模态生成 后面会不断地去添加,也希望能够帮到其他人,欢迎大家补充。 看到评论区有很多小伙伴对多模态方面不知道怎么入门,不知道使用哪些数

    2024年02月12日
    浏览(38)
  • [论文阅读]Multimodal Virtual Point 3D Detection

    多模态虚拟点3D检测 论文网址:MVP 论文代码:MVP 方法MVP方法的核心思想是将RGB图像中的2D检测结果转换为虚拟的3D点,并将这些虚拟点与原始的Lidar点云合并。具体步骤如下: (1) 使用2D检测器(如CenterNet)在RGB图像中检测物体。 (2) 将检测到的物体掩模投影到Lidar点云中,创建与

    2024年02月03日
    浏览(93)
  • Multimodal Learning with Transformer: A Survey

    Transformer是一种很有前途的神经网络学习者,在各种机器学习任务中都取得了巨大的成功。由于近年来多模态应用和大数据的流行,基于转换器的多模态学习已成为人工智能研究的热点。本文对面向多模态数据的变压器技术进行了全面的研究。本调查的主要内容包括: (1)多

    2024年02月14日
    浏览(40)
  • Retrieval-Augmented Multimodal Language Modeling

    本文是LLM系列文章,针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。 最近的多模态模型,如DALL-E和CM3,在文本到图像和图像到文本生成方面取得了显著进展。然而,这些模型将其所有知识(例如,埃菲尔铁塔的外观)存储在模型参数中,需要越来越大的模型和训练数据

    2024年02月12日
    浏览(40)
  • 【论文阅读笔记】Large Multimodal Agents: A Survey

    [写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬! 论文名称: Large Multimodal Agents: A Survey 论文链接: https://arxiv.org/pdf/2402.15116.pdf Large Multimodal Agents (LMAs) 大型多模态智能体 Motivation 大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LL

    2024年03月18日
    浏览(56)
  • 论文阅读:multimodal remote sensing survey 遥感多模态综述

    参考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文强调了单模态和多模态遥感影像判读之间的关键差异,然后利用这些差异来指导我们对级联结构中多模态遥感影像判读的研究。最后,对未来可能的研究方向进行了探讨

    2024年02月02日
    浏览(64)
  • A Survey on Multimodal Large Language Models

    本文是LLM系列的文章之一,主要是讲解多模态的LLM。针对《A Survey on Multimodal Large Language Models》的翻译。 多模态大语言模型(MLLM)是近年来兴起的一个新的研究热点,它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力,如基于图像写故事和无OCR的

    2024年02月12日
    浏览(94)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包