您现在的位置是：首页 > 其他

当前栏目

语音信号处理-概念（三）：FBank特征、MFCC特征（梅尔频率倒谱系数）【由于二者蕴含信息较少，已不适合这个大数据时代。但有些任务由于其本身的特殊性质，还是会使用到MFCC谱。如情感语音转换任务】

转换概念数据信息任务时代还是这个

2023-09-27 14:20:37 时间

语音识别的第一步是特征提取，也就是提取语音信号中有助于理解语言内容的部分而丢弃掉其它的东西（比如背景噪音和情绪等等）。

语音的产生过程如下：语音信号是通过肺部呼出气体，然后通过声门的开启与闭合产生的周期信号。再通过声道（包括舌头牙齿）对信号调制后产生。区分语音的关键就是声道的不同形状。不同的形状就对应不同的滤波器，从而产生了不同的语音。如果我们可以准确的知道声道的形状，那么我们就可以得到不同的音素(phoneme)的表示。声道的形状体现在语音信号短时功率谱的包络(envelope)中，因此好多特征提取方法需要准确的表示包络信息。

在任意一个Automatic speech recognition 系统中，第一步就是提取特征。换句话说，我们需要把音频信号中具有辨识性的成分提取出来，然后把其他的乱七八糟的信息扔掉，例如背景噪声啊，情绪啊等等。

在这里插入图片描述
搞清语音是怎么产生的对于我们理解语音有很大帮助。人通过声道产生声音，声道的shape（形状？）决定了发出怎样的声音。声道的shape包括舌头，牙齿等。如果我们可以准确的知道这个形状，那么我们就可以对产生的音素phoneme进行准确的描述。声道的形状在语音短时功率谱的包络中显示出来。而MFCCs就是一种准确描述这个包络的一种特征。

MFCCs（Mel Frequency Cepstral Coefficents）是一种在自动语音和说话人识别中广泛使用的特征。它是在1980年由Davis和Mermelstein搞出来的。从那时起。在语音识别领域，MFCCs在人工特征方面可谓是鹤立鸡群，一枝独秀，从未被超越啊&

猜你喜欢

性能测试，python 内存分析工具 -memray
unity中移动lindrender和transform, 两个点的位置
问题记录：jenkins扫描不到分支
服务器报错 http error 503.the service is unavailable怎么解决
2019-1-29-WPF-设置输入只能英文
IFIP主席Mike Hinchey致辞：40%的数据都会涉及到云
SSH login without password
三种常用的MySQL建表语句
干货分享：让你分分钟学会 javascript 闭包(转)
解决IIS首次启动加载慢的问题
治疗幽门螺杆菌
C#集合Collections购物车Shopping Cart
Swift 笔记 (四) —— 集合类型
用Go向MySQL导入.csv文件
Linux C/C++ Memory Leak Detection Tool
JSSDK微信自定义分享朋友圈
MFC 对象与Win32 SDK 句柄的映射关系
thinkphp线上自动加载异常与修复
Js_Eval方法

相关主题

Java Json转换
java 日期转换
Mysql 行列转换
网络地址转换
2.6 查询转换
进制转换_全
3438. 数制转换
C#-12 转换
c#word转换pdf
时间戳转换
各种转换
JSON转换类
CSS3转换
Css3 3D转换
T 泛型转换
中文unicode转换
Oracle 行列转换
python数据转换
时间转换函数
字符转换~

zl程序教程

当前栏目

语音信号处理-概念（三）：FBank特征、MFCC特征（梅尔频率倒谱系数）【由于二者蕴含信息较少，已不适合这个大数据时代。但有些任务由于其本身的特殊性质，还是会使用到MFCC谱。如情感语音转换任务】

相关文章