语音信号处理-概念(三):FBank特征、MFCC特征(梅尔频率倒谱系数)【由于二者蕴含信息较少,已不适合这个大数据时代。但有些任务由于其本身的特殊性质,还是会使用到MFCC谱。如情感语音转换任务】
2023-09-27 14:20:37 时间
语音识别的第一步是特征提取,也就是提取语音信号中有助于理解语言内容的部分而丢弃掉其它的东西(比如背景噪音和情绪等等)。
语音的产生过程如下:语音信号是通过肺部呼出气体,然后通过声门的开启与闭合产生的周期信号。再通过声道(包括舌头牙齿)对信号调制后产生。区分语音的关键就是声道的不同形状。不同的形状就对应不同的滤波器,从而产生了不同的语音。如果我们可以准确的知道声道的形状,那么我们就可以得到不同的音素(phoneme)的表示。声道的形状体现在语音信号短时功率谱的包络(envelope)中,因此好多特征提取方法需要准确的表示包络信息。
在任意一个Automatic speech recognition 系统中,第一步就是提取特征。换句话说,我们需要把音频信号中具有辨识性的成分提取出来,然后把其他的乱七八糟的信息扔掉,例如背景噪声啊,情绪啊等等。
搞清语音是怎么产生的对于我们理解语音有很大帮助。人通过声道产生声音,声道的shape(形状?)决定了发出怎样的声音。声道的shape包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素phoneme进行准确的描述。声道的形状在语音短时功率谱的包络中显示出来。而MFCCs就是一种准确描述这个包络的一种特征。
MFCCs(Mel Frequency Cepstral Coefficents)是一种在自动语音和说话人识别中广泛使用的特征。它是在1980年由Davis和Mermelstein搞出来的。从那时起。在语音识别领域,MFCCs在人工特征方面可谓是鹤立鸡群,一枝独秀,从未被超越啊&
相关文章
- Word处理控件Aspose.Words功能演示:在 Java 中将 DOC 或 DOCX 转换为 PNG
- 华为python机试题目:计算字符个数、简单错误记录、简单密码、进制转换、句子逆序、密码验证合格程序
- 如何在 Ubuntu 上转换图像、音频和视频格式
- Python图像处理库PIL中图像格式转换
- 有没有一个在线工具可以将Python代码转换为Java代码?
- CentOS8 安装图形界面后,怎么转换为命令行界面
- python 编程中的一个关于图片的库 imageio (读取照片RGB内容,转换照片格式)
- hbase中文内容编码转换
- Jackson 框架,轻易转换JSON【转】
- int转换sys,argv参数问题
- C# DataTable 和List之间相互转换的方法(转载)
- Java 编程的动态性, 第4部分: 用 Javassist 进行类转换--转载
- 雅虎“卖身”之后:梅耶尔的角色会如何转换?
- C# DataTable转换为Html