您现在的位置是：首页 > 后端

当前栏目

[DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测

序列笔记函数模型检测语音触发损失

2023-09-11 14:15:01 时间

5.3序列模型与注意力机制

觉得有用的话,欢迎一起讨论相互学习~

吴恩达老师课程原地址

3.9语音辨识 Speech recognition

问题描述 对于音频片段(audio clip)x ,y生成文本(transcript)，人听见的或者麦克风捕捉的都是空气中细微的气压变化，语音识别系统能够根据这种微弱的气压变化将音频转化为文本字符。
- 将空气中微弱的气压变化显示成频率图的形式，并输出音频的文本内容如下图所示：
考虑到人的耳朵并不会处理声音的原始波形，而是通过一种特殊的物理结构来测量不同的频率和强度的声波，音频的常见预处理方式就是生成这样的 声谱图 ，同样的 横轴是时间，纵轴是声音的频率，而图中不同的颜色显示了声波的能量，也就是在不同的时间和频率上这些声音有多大
音位过去的语音识别系统是依据音位来进行分辨的，即通过人为制定的音位符号来表示一个特定的语言，使用音位的符号标记就能使用机器合成出指定的语言。
进展但是在 深度学习 这种端到端的学习系统中使用音位来表示声音符号已经不再有必要，而是可以构建一个系统，通过向系统中输入音频，然后直接输出音频的文本。而不需要用这种人工设计的表示方法。所以语音识别使用的数据集特别巨大，往往可以长达300多个小时甚至3000个小时的文本音频数据集。大型的商业系统中也训练了1W或者10W个小时。

注意力模型在语音识别中的应用

输入语音文本数据集的不同时间帧上的数据，并使用一个注意力模型输出文本描述。

CTC损失函数语音识别(Connectionist temporal classification)

Graves A, Gomez F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning. ACM, 2006:369-376.

示例假设输入音频为 the quick brown fox ,这时使用一个新的网络，在这个例子中输入和输出的数量相等，在这里使用一个简单的 单向循环神经网络 作为例子，而 实际应用使用的往往是一个很大很深的双向LSTM或GIU结构的循环神经网络 通常输入的数量往往比输出的数量要多很多 比如你有一段10秒的音频，并且特征是100HZ的，即每秒有100个样本，于是这段10s的音频片段，就会有1000个输入。
但是音频文本识别的输出肯定没有1W个，所以可以用 空白字符 和 重复字符 来对其进行填充，其中 重复字符 可以用来重叠，而 空白字符 可以用来占位。
例如 ttt_h_eee___\space____qqq__ \space 表示空格符，表示此处为单词的结尾，用来分割单词，而 “_ ” 表示用于占位的占位符，其中占位符中间的 重复字符 可以折叠。 ttt_h_eee___\space____qqq__ 可以被处理为 the q 三个t,e,q都可以被折叠为一个字母，而占位符可以被忽略。

3.10触发字检测 Trigger word detection

随着语音识别的发展，越来越多的设备可以被你的声音唤醒，这被称为 触发字检测系统
有关于 触发字检测 的文献还处于发展阶段，对于 触发字检测 的最好算法目前还没有一个广泛的定论。

首先将音频文件输入到RNN中，然后定义目标标签y
假如音频片段的一点处刚说完一个触发字，那么你就可以在训练集中把目标标签都设为0，然后此点目标签设为1.然后此点之后恢复成0，持续这个过程，只要触发了关键词，就将目标标签设置为1.
缺点该算法构建了一个很不平衡的训练集，即0的出现次数比1的出现次数多出了很多。为了解决这个问题可以在 关键词被触发 后输出多个1，以消除这种不平衡性。

猜你喜欢

android中viewPager+fragment实现的屏幕左右切换(进阶篇)
将Android源码导入eclipse中的方法以及编译Android源码指定模块
算法手撕代码1~10
Uncaught TypeError: Illegal invocation解决
软件测试中SQL代码的优化
Oracle字符乱码、数据越界訪问典型Bug分析
MySQL - 一条SQL在MySQL中是如何被执行的？
《腾讯iOS测试实践》一一3.3　机型兼容
mysql自动补全功能（只能用于表/列名）
【IDEA】+创建一个动态web程序
js跳转页面的方法
140329
计算机网络课程实验4——编程实现路由算法（迪杰斯特拉算法）
在vscode中通过修改launch.json文件为项目添加启动参数——在launch.json文件中修改args变量
《惢客创业日记》2020.01.03（周五）一月份的工作计划
【SpringBoot源码分析】Bean的加载过程
STL之Vector容器

相关主题

Python(二) 序列
序列 mysql
Oracle创建序列
伪随机序列
721. 递增序列
序列
子序列
SQL 使用序列
笔记笔记

zl程序教程