自动语音识别(ASR):研究综述【传统语音识别:基于贝叶斯公式,对联合概率P(X|W)·P(W)进行建模(语音识别结果=声学模型×语言模型)】【端到端语音识别:直接对条件概率 P(W|X)进行建模 】
2023-09-27 14:20:37 时间
一、传统语音识别基本原理(基于贝叶斯公式)
设一段语音信号经过特征提取得到特征向量序列为 X=[x1, x2, …, xN], 其中 xi 是一帧的特征向量, i=1, 2, …,N, N 为特征向量的数目. 该段语音对应的文本序列设为 W=[w1, w2, …, wM], 其中 wi 为基本组成单元, 如音素、单词、字符, i=1, 2, …, M, M 为文本序列的维度. 从贝叶斯角度, 语音识别的目标就是从所有可能产生特征向量X的文本序列中找到概率最大的W*, 可以用公式表示为式 (1) 优化问题:
由式(1)可知, 要找到最可能的文本序列必须使两个概率 P(X|W) 和 P(W) 的乘积最大, 其中:
- P(X|W) 为条件概率, 由声学模型决定;
- P(W) 为先验概率, 由语言模型决定.
声学模型和语言模型对语音信号的表示越精准, 得到的语音系统效果越准确.
从语音识别系统的构成来讲, 一套完整的语音识别系统包括预处理、特征提取、声学模型、语言模型以及搜索算法等模块,
相关文章
- 电脑识别图像的极限在何处?
- 10、Halcon图像条形码和二维码识别
- 识别哈希算法类型hash-identifier
- VUE-006-通过路由 router.push 传递 params 参数(路由 name 识别,请求链接不显示)
- HaGRID手势识别数据集使用说明和下载
- QTP不识别树结构中的点击事件
- Android手势识别的发展
- 巩固图像和物体识别领域领导地位:谷歌出新招
- 免费开源支持跨平台部署的车牌识别应用 Light-LPR
- 最值得学习和最具潜力的 44 个顶级开源项目,包括关于机器学习、深度学习、强化学习、语音识别、自然语言处理、计算机视觉、自动建模和分布式平台等等
- 树莓派+摄像头+深度学习实现人脸口罩识别