AIGC产业研究报告 2023——音频生成篇

这篇具有很好参考价值的文章主要介绍了AIGC产业研究报告 2023——音频生成篇。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

易观：今年以来，随着人工智能技术不断实现突破迭代，生成式AI的话题多次成为热门，而人工智能内容生成（AIGC）的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势，易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。

报告以内容生成模态作为视角，涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计（图生成）等领域的技术发展、关键能力、典型应用场景，我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络，为各领域的应用开发者和使用者提供参考。

在本期音频生成篇中，报告从音频技术的发展历程展开，回顾了拼接合成、参数合成、端到端合成三个关键阶段，分析了生成速度、语音质量、控制能力等模型关键能力的应用表现、国内外市场上的主流产品，以及在进行商业化落地时，来自数据、性能、需求三方面的挑战和解决思路。

定义

音频生成是指根据所输入的数据合成对应的声音波形的过程，主要包括根据文本合成语音（text-to-speech），进行不同语言之间的语音转换，根据视觉内容（图像或视频）进行语音描述，以及生成旋律、音乐等。

细分类型和主要应用领域

组成声音的结构包括音素、音节、音位、语素等，音频生成能够对这些基本单位进行预测和组合，通过频谱逼近或波形逼近的合成策略来实现音频的生成。

按照输入数据类型的不同，音频生成可以分为根据文字信息、音频信息、肌肉震动、视觉内容等数据进行的声音合成。按照场景的不同，音频生成又可以分为非流式语音生成和流式语音生成。其中，非流式语音可进行一次性输入和输出，强调对整体语音合成速度的把握，适合应用在语音输出为主的相关场景；流式语音则可以对输入数据进行分段合成，响应时间短，应用在语音交互相关场景中，能够带来更好的体验。

决定音频生成效果的关键因素主要包括生成速度、分词的准确程度、合成语音的自然度，以及语音是否具有多样化的韵律和表现力等。音频生成在智能客服、语音导航、同声传译、音乐和影视制作、有声书阅读等场景均有广阔的应用空间。另外，近年来语音生成设备在医疗领域也显现出了巨大的应用潜力，例如帮助语言障碍者与他人进行交流，方便视觉障碍者有效获取文本和图片信息等。

AIGC产业研究报告 2023——音频生成篇

技术发展的关键阶段

音频生成早期是基于物理机理，通过机械装置、电子合成器等实现对人声的模拟。随着计算机技术的发展，音频生成逐渐形成了以“文本分析-声学模型-声码器”为基本结构的语音合成方法。基于对这个结构部分模块的替代或优化，音频生成的关键技术大致经历了拼接合成阶段、参数合成阶段、端到端合成阶段三个时期。目前，音频生成作为一种比较成熟的技术，已经具备产业化应用的能力。

AIGC产业研究报告 2023——音频生成篇