zl程序教程

您现在的位置是:首页 >  云平台

当前栏目

自动语音识别(ASR):研究综述【传统语音识别:基于贝叶斯公式,对联合概率P(X|W)·P(W)进行建模(语音识别结果=声学模型×语言模型)】【端到端语音识别:直接对条件概率 P(W|X)进行建模 】

识别建模自动语言 基于 进行 模型 研究
2023-09-27 14:20:37 时间

一、传统语音识别基本原理(基于贝叶斯公式)

设一段语音信号经过特征提取得到特征向量序列为 X=[x1, x2, …, xN], 其中 xi 是一帧的特征向量, i=1, 2, …,N, N 为特征向量的数目. 该段语音对应的文本序列设为 W=[w1, w2, …, wM], 其中 wi 为基本组成单元, 如音素、单词、字符, i=1, 2, …, M, M 为文本序列的维度. 从贝叶斯角度, 语音识别的目标就是从所有可能产生特征向量X的文本序列中找到概率最大的W*, 可以用公式表示为式 (1) 优化问题:
在这里插入图片描述
由式(1)可知, 要找到最可能的文本序列必须使两个概率 P(X|W) 和 P(W) 的乘积最大, 其中:

  • P(X|W) 为条件概率, 由声学模型决定;
  • P(W) 为先验概率, 由语言模型决定.

声学模型和语言模型对语音信号的表示越精准, 得到的语音系统效果越准确.

从语音识别系统的构成来讲, 一套完整的语音识别系统包括预处理、特征提取、声学模型、语言模型以及搜索算法等模块,