音频筑基:基音、基频和共振峰

这篇具有很好参考价值的文章主要介绍了音频筑基:基音、基频和共振峰。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

音频信号分析中,经常遇到基音、周期、共振峰的概念,这里总结下自己的粗浅理解,不当之处,还望各位大佬提出指正。

是什么


基音,是复音中强度最大、频率最低的音。表征着声音的音高,即人们所感知到的音调高低。通常是以频率维度衡量,所以也叫基音频率,简称基频F0。有时粗略讲,又叫音高,英文名Pitch。

  • 基音周期Period:气流经声门的周期间隔,体现声源激励信息,设时间为T(s),物理含义为是时域波形最小重复的时间。
    • 周期Period是指声音波形中一个完整的周期所需要的时间。
    • 周期Period一般可以通过分析波形的重复模式来确定,比如:计算波形中相邻两个峰值(或谷值)之间的时间间隔来获得。
  • 基音频率Fundamental Frequency,是基音周期的倒数F0=1/T

共振峰,英文名Formant,表现为频谱上由基频衍生的次谐波(能量最强的一根根横线)。

  • 共振峰产生原理:F1、F2,经声门后来到声道处与发声环境产生共振的频率,体现声道环境信息。

深入理解


周期Period和基音Pitch如何转换?

Pitch指的是音频信号的基波周期,用周期或者频率来表示,如周期为4.3ms,对应频率就是230Hz,跟频谱图的频率概念是有别的。语音信号场景,基音指标十分重要。

转换公式为:Pitch = 1 / Period。换句话说,基音Pitch的值是周期Period的倒数。这意味着,周期越短,基音Pitch就越高;周期越长,基音Pitch就越低。

严格意义上讲,音高Pitch和基频F0有何区别?

严格说,音高的概念更广,音高主要由基频决定。通常认为,音高增高八度音程相当于基频翻倍。

  • 基频F0是指声音波形中最低频率的周期性振动频率,也就是声音的基频。在语音信号中,基频F0通常对应于说话人的声调(tone),也就是说话人说话时的基本音高。基频F0的单位是赫兹(Hz)。
  • 基音Pitch是指声音的音高,通常用赫兹(Hz)或半音(semitone)来表示。在音乐领域中,Pitch通常指的是乐器演奏的音高,而在语音领域中,Pitch通常指的是说话人的音高。

男声和女声的基频范围是?文章来源地址https://www.toymoban.com/news/detail-854617.html

  • 男声基频:60-150Hz
  • 女声基频:200-400Hz

相关参考


  1. 声音基频f0_音高和基频(Pitch and F0),link
  2. 音频(二) 基音周期与共振峰, link
  3. 基音周期和共振峰,link
  4. Wikipedia:共振峰,link
  5. 口语元音中的共振峰和谐波,link

到了这里,关于音频筑基:基音、基频和共振峰的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 音频筑基:算法时延分析

    音频算法中,经常遇到时延分析的问题,刚开始接触大多都比较迷惑,这里将自己对时延的学习思考梳理总结于此。 音频领域中,时延(delay/latency)主要指声音从源端发出,经链路传输,再到对端接收到声音,所经过的总时间延迟。一般人耳无法感知的蓝牙段链路时延是25-30

    2024年01月17日
    浏览(35)
  • Speech | 语音处理,分割一段音频(python)

    本文主要是关于语音数据在处理过程中的一些脚本文件以及实例,所有代码只需要更改所需处理的文件路径,输出路径等,全部可运行。 目录 所需环境 方法1:将一整段音频按时间批量切成一个一个音频 方法2:将一整段音频按语句停顿批量切成一个一个音频 方法3:将一个

    2024年02月08日
    浏览(35)
  • 音频筑基:信噪比SNR指标

    在分析音频信号中,信噪比是我们经常遇到的概念,这里谈谈自己的理解。 定义 SNR,Signal to Noise Ratio,信噪比,也常缩写为S/N 概念 顾名思义,就是信号和噪声的比值,实际应用时比值结果常转到dB域中 信号,原系统输出的理论信号 噪声,指经过某系统后,原信号不存在的

    2024年02月04日
    浏览(41)
  • 音频筑基:时延、帧长选取的考量

    音频算法中,时延和音频帧长的选择通常是个需要平衡的参数,这里分析下背后的考量因素。 一般来说,帧长是音频算法端到端时延的子集,是时延的组成元素,所以,帧长越长,时延越大。 那为啥会有音频帧长的概念呢?原因是一般会做分块频域变换,根据音频信号的短

    2024年01月20日
    浏览(32)
  • Python | 语音处理 | 用 librosa / AudioSegment / soundfile 读取音频文件的对比

    本文对比用 Python 读取音频文件 (.wav, .mp3) 的三种方式: soundfile.read librosa.load pydub.AudioSegment.from_file 使用总结如下: soundfile.read : 只能读 .wav ,不能读 .mp3; 默认 dtype = \\\'float64\\\' ,输出为 (-1, 1) 之间的数据 (做了 32768 归一化);修改为 dtype = \\\'int16\\\' ,输出为 (-2**15, 2**15-1) 之间;

    2024年02月14日
    浏览(49)
  • 音频筑基:码率模式CBR、VBR、CVBR一文说清

    在音频编码或者网络传输中,码率是我们经常遇到的概念,这里谈谈自己对CBR、VBR、CVBR模式的理解。 首先什么是码率,即指每秒传送多少比特的数据量,常用单位kbps。 码率的不同模式常见有: CBR,Constant Bitrate,定码率,常用于有互动低延迟的实时直播场景,适合编码,不

    2024年01月20日
    浏览(37)
  • 磁共振图像处理中 fft1c 和 ifft1c 函数的 Python 实现

    fft1c 和 ifft1c 是 MRI 图像处理的常用函数。通常使用如下的 Matlab 实现 (Michael Lustig,2005) 但笔者在尝试将一个需要使用 ifft1c 函数移植到 Python 中时发现,无论是现有库还是其他现有开源代码很少有 ifft1c 的 Python 实现,Github 中少数的几个实现也和 Matlab 版不同,这给 debug 带

    2024年02月15日
    浏览(36)
  • [语音识别] 基于Python构建简易的音频录制与语音识别应用

    语音识别技术的快速发展为实现更多智能化应用提供了无限可能。本文旨在介绍一个基于Python实现的简易音频录制与语音识别应用。文章简要介绍相关技术的应用,重点放在音频录制方面,而语音识别则关注于调用相关的语音识别库。本文将首先概述一些音频基础概念,然后

    2024年02月12日
    浏览(45)
  • whatsapp 语音通话 音频编码(五)

    客户端通过websocket连接到服务器,客户端发起语音通话请求,并且完成必要的协商之后,就可以直接将语音数据发送给服务器,服务器接收到对方的语音数据之后也会通过websocket将语音数据转发给客户端 XMPP 在发起语音通话请求的时候,需要带上一个秘钥,这个秘钥长32字节

    2024年04月17日
    浏览(28)
  • 小蜗语音工具1.9、文本,小说,字幕生成语音、多角色对话,语音识别、读取音频字幕

    可以把正本小说,生成字幕文件。不限制文件的大小 a、 分割字符 :默认通过**,。!–:?“”** 来把内容分割成一句一句的字幕,可以自定义 b、 删除符号 :默认删除【】=、等符号,删除内容里面的这些特殊符号并且替换为空格,可以自定义 c、 删除文字 : 第(. )章(

    2024年02月10日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包