导读1.背景知识回顾1.1特征提取数字信号的基本知识MFCC/Fbank特征1.2混合高斯模型GMMGMM模型EM算法1.3隐马尔科夫模型HMM的三个基本问题(....
1.背景知识回顾1.1特征提取1.2混合高斯模型GMM1.3隐马尔科夫模型- HMM的三个基本问题(概率问题,预测问题,学习问题)
2.GMM-HMM语音识别框架与概念终极目的:让机器听懂
首先要出三个概念:
- 对齐:“音频wav”和“文本txt“的对应关系
- 训练:已知对齐(wav和txt),迭代计算模型参数
- 解码:根据训练得到的模型参数,由wav推出txt

3.内容提要3.1基于孤立词的GMM-HMM语音识别系统3.2基于单音素的GMM-HMM语音识别系统3.3基于三音素的GMM-HMM语音识别系统3.4基于GMM-HMM语音识别系统流程4.基于孤立词的GMM-HMM语音识别系统- 孤立词的概念:所谓孤立词就是对于训练数据和测试数据,语音数据仅包含一个数字或者一个词
- 考虑一个最简单的从0~9这样的一个语音识别系统

- 从上图中很明显可以看出,对于每个数字,我们都要建立一个对应的模型,对于训练数据中的语音数据,通常会提取其MFCC特征向量
4.1目标X_{test}测试特征,P_w(X)是词w的概率模型,vocab是词表(在该实例中为0~9 10个数字)

- 为每个词都建立了一个模型P_{one}(X),P_{two?(X)},P_{three}(X)...
- 计算在每个词上的概率
- 选择所有词中概率最大的此作为识别结果
但是对于该语音任务具有的特性,序列性、不定长性,又该如何建模?
4.2建模词(语音)是一个序列,P_w(X)可以用HMM的概率问题来进行描述,并且语音经过MFCC特征提取后也会变成连续概率密度分布
回想一下GMM-HMM
这时候对于这十个词,我们可以为每个词建立一个GMM-HMM模型

语音识别中的GMM与之前学习的GMM有何区别?
- 语音识别中的GMM为对角的,因为其协方差矩阵为对角阵
- 为什么协方差矩阵为对角阵?因为MFCC特征之间相互独立,作了去相关,直接使用对角阵就可以描述
- 对角的GMM模型参数量更少,计算也更少一些
语音识别中的HMM

- 3状态 , 为什么?前人的经验。
- 左右模型(上一个状态只能去往下一个状态或者自跳,不可逆),为什么?和人发音类似,都是不可逆的过程
- 拓扑结构(s1,s2,s3为状态)
如何结合起来

每个状态都有一个对应的GMM,每个词又有对应的HMM,给出一段未知序列的时侯,就会在HMM上计算一下观测概率、转移概率,也就是做一个Viterbi算法,计算一个序列在HMM-GMM上的概率
4.3训练- 从系统的角度思考
- 输入:词w和w所对应的训练数据
- 输出:词w的HMM-GMM模型,也就是其参数
- 关键点
- 任务:训练数据X_{w1},X_{w2},X_{w3}...中训练P_w(X),估计HMM-GMM参数
- 准则:最大似然
- 方法:Vertibi学习(Viterbi训练)、Baum-Welch算法(前向后向训练)