音频筑基:时延、帧长选取的考量

这篇具有很好参考价值的文章主要介绍了音频筑基:时延、帧长选取的考量。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

音频算法中,时延和音频帧长的选择通常是个需要平衡的参数,这里分析下背后的考量因素。

帧长与时延的关系


一般来说,帧长是音频算法端到端时延的子集,是时延的组成元素,所以,帧长越长,时延越大。

那为啥会有音频帧长的概念呢?原因是一般会做分块频域变换,根据音频信号的短时平稳性(10-30ms,信号是周期重复的),从而进行分块分帧做短时傅里叶变换,于是有了帧长的概念。

时延指标里的那个why

那时延是啥?之前文章有讲,简单说,就是音频信号从发出到接收经历的时间延迟。过长的延迟带给人体验就是有卡顿感,而人耳对时延的敏感性是有范围的:

  • 人耳对端到端(嘴到耳的时延)

    • <150ms不会有明显感知
      • <50ms可能感知不大
      • 50~100ms之间可能轻微感知
      • 100~200ms可感知
    • >200ms能明显感知
    • >400ms会无法忍受
  • 蓝牙传输链路

    • 普通人对于80ms以下的声音延迟是没有知觉的
    • 经过听力专门训练的人员可识别50ms左右的延迟,例如专业电竞人员
    • 几乎没有人能识别35ms以下声音延迟

帧长变化的影响


以音频编解码为例,见下面描述:

First, the audio is sampled. Perceptual coding requires a codec to look at multiple, consecutive samples, as a lot of the opportunities for compression come from identifying periods of repeated sound (or lack of sound). This means that most codecs need to capture sufficient, successive samples to have enough data to characterise these changes. This period of sampling is called a frame.


Different encoding techniques use different frame lengths, but it’s almost always a fixed duration. If it’s too short, the limited number of samples starts to reduce the efficiency of the codec, as it doesn’t have enough information to apply the perceptual coding techniques, which impacts the quality. On the other hand, if the frame sizes grow, the quality improves, but the latency increases, as the codec has to wait longer to collect each frame of audio data.

——《Introducing-Bluetooth-LE-Audio-book》

帧长选取里的那个why

语音短时平稳性是在10-30ms这个区间有效,从下图可以看出,从编码质量和时延两个维度综合看,频域编解码最佳帧长是10ms及以上,5ms短帧的低码率编码就不太占优势。
音频筑基:时延、帧长选取的考量,语音处理,音视频文章来源地址https://www.toymoban.com/news/detail-807743.html

参考资料


  1. Introducing-Bluetooth-LE-Audio-book.pdf, link

到了这里,关于音频筑基:时延、帧长选取的考量的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【音视频原理】音视频 “ 采样 - 编码 - 封装 过程 “ 和 “ 解封装 - 解码 - 播放 过程 “ 分析 ( 视频采集处理流程 | 音频采集处理流程 | 音视频文件解封装播放流程 )

    本篇文件主要分析 音视频文件 是怎么产生的 , 以及 音视频文件是如何播放的 ; 视频文件从录像到生成文件的全过程 : 采集图像帧 : 摄像头 硬件 负责 采集画面 , 采集的 初始画面 称为 \\\" 图像帧 \\\" , 一秒钟 采集 的 图像帧 数量 称为 \\\" 帧率 \\\" , 如 : 60 帧 就是 一秒钟采集 60 个画

    2024年02月11日
    浏览(73)
  • 语音信号处理 —— 笔记(一)音频信号处理

      声音的产生 :能量通过声带使其振动产生一股基声音,这个基声音通过声道 ,与声道发生相互作用产生共振声音,基声音与共振声音一起传播出去。 传感器以 某种频率 探测声音的振幅强度以及振动方向,所得到的一系列随时间变化的点。 传感器的探测频率,即为采样

    2023年04月09日
    浏览(52)
  • 语音识别与语音合成:机器学习在音频处理领域的应用

    语音识别和语音合成是人工智能领域的两个重要应用,它们在日常生活和工作中发挥着越来越重要的作用。语音识别(Speech Recognition)是将语音信号转换为文本信息的技术,而语音合成(Text-to-Speech Synthesis)是将文本信息转换为语音信号的技术。这两个技术的发展与机器学习紧密相

    2024年02月21日
    浏览(47)
  • Speech | 语音处理,分割一段音频(python)

    本文主要是关于语音数据在处理过程中的一些脚本文件以及实例,所有代码只需要更改所需处理的文件路径,输出路径等,全部可运行。 目录 所需环境 方法1:将一整段音频按时间批量切成一个一个音频 方法2:将一整段音频按语句停顿批量切成一个一个音频 方法3:将一个

    2024年02月08日
    浏览(35)
  • 音频筑基:基音、基频和共振峰

    音频信号分析中,经常遇到基音、周期、共振峰的概念,这里总结下自己的粗浅理解,不当之处,还望各位大佬提出指正。 基音,是复音中强度最大、频率最低的音。表征着声音的音高,即人们所感知到的音调高低。通常是以频率维度衡量,所以也叫基音频率,简称基频F0。

    2024年04月17日
    浏览(50)
  • 音频筑基:信噪比SNR指标

    在分析音频信号中,信噪比是我们经常遇到的概念,这里谈谈自己的理解。 定义 SNR,Signal to Noise Ratio,信噪比,也常缩写为S/N 概念 顾名思义,就是信号和噪声的比值,实际应用时比值结果常转到dB域中 信号,原系统输出的理论信号 噪声,指经过某系统后,原信号不存在的

    2024年02月04日
    浏览(41)
  • 1分钟了解音频、语音数据和自然语言处理的关系

    音频、语音数据和自然语言处理这三者正在不断促进人工智能技术的发展,人机交互也逐渐渗透进生活的每个角落。在各行各业包括零售业、银行、食品配送服务商)的多样互动中,我们都能通过与某种形式的AI(如聊天机器人或虚拟助手)沟通来实现某些交易活动。语言是

    2024年02月09日
    浏览(47)
  • Python | 语音处理 | 用 librosa / AudioSegment / soundfile 读取音频文件的对比

    本文对比用 Python 读取音频文件 (.wav, .mp3) 的三种方式: soundfile.read librosa.load pydub.AudioSegment.from_file 使用总结如下: soundfile.read : 只能读 .wav ,不能读 .mp3; 默认 dtype = \\\'float64\\\' ,输出为 (-1, 1) 之间的数据 (做了 32768 归一化);修改为 dtype = \\\'int16\\\' ,输出为 (-2**15, 2**15-1) 之间;

    2024年02月14日
    浏览(49)
  • 音频筑基:码率模式CBR、VBR、CVBR一文说清

    在音频编码或者网络传输中,码率是我们经常遇到的概念,这里谈谈自己对CBR、VBR、CVBR模式的理解。 首先什么是码率,即指每秒传送多少比特的数据量,常用单位kbps。 码率的不同模式常见有: CBR,Constant Bitrate,定码率,常用于有互动低延迟的实时直播场景,适合编码,不

    2024年01月20日
    浏览(36)
  • ip网络的时延:发送时延(传输时延),传播时延,处理时延,排队时延

    ip网络的时延通常是指一个报文或分组从一个网络的一端传送到另一个端所需要的时间。 主要包括4部分:发送时延,传播时延,处理时延,排队时延。 总时延=发送时延+传播时延+处理时延+排队时延。 一般来说,处理时延和排队时延主要取决于CPU快慢,系统负荷和应用软件设

    2023年04月26日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包