语音识别的准确率与语音模型基于GMM-HMM的语音识别系统

发布时间：2026-06-01阅读(22)

导读1.背景知识回顾1.1特征提取数字信号的基本知识MFCC/Fbank特征1.2混合高斯模型GMMGMM模型EM算法1.3隐马尔科夫模型HMM的三个基本问题（....1.背景知识回顾1.1特征提取

数字信号的基本知识
MFCC/Fbank特征

1.2混合高斯模型GMM

GMM模型
EM算法

1.3隐马尔科夫模型

HMM的三个基本问题（概率问题，预测问题，学习问题）

2.GMM-HMM语音识别框架与概念

终极目的：让机器听懂

首先要出三个概念：

对齐：“音频wav”和“文本txt“的对应关系
训练：已知对齐（wav和txt），迭代计算模型参数
解码：根据训练得到的模型参数，由wav推出txt

3.内容提要3.1基于孤立词的GMM-HMM语音识别系统

训练（前向后向训练/Viterbi训练）
解码

3.2基于单音素的GMM-HMM语音识别系统

音素/词典
训练
解码

3.3基于三音素的GMM-HMM语音识别系统

三音素
决策树
训练
解码

3.4基于GMM-HMM语音识别系统流程4.基于孤立词的GMM-HMM语音识别系统

孤立词的概念：所谓孤立词就是对于训练数据和测试数据，语音数据仅包含一个数字或者一个词
考虑一个最简单的从0~9这样的一个语音识别系统

数据准备
建模
如何训练
如何测试（解码）

从上图中很明显可以看出，对于每个数字，我们都要建立一个对应的模型，对于训练数据中的语音数据，通常会提取其MFCC特征向量

4.1目标

X_{test}测试特征，P_w(X)是词w的概率模型，vocab是词表（在该实例中为0~9 10个数字）

为每个词都建立了一个模型P_{one}(X),P_{two？(X)},P_{three}(X)...
计算在每个词上的概率
选择所有词中概率最大的此作为识别结果

但是对于该语音任务具有的特性，序列性、不定长性，又该如何建模？

4.2建模

词（语音）是一个序列，P_w(X)可以用HMM的概率问题来进行描述，并且语音经过MFCC特征提取后也会变成连续概率密度分布

回想一下GMM-HMM

GMM概率密度建模
HMM序列建模

这时候对于这十个词，我们可以为每个词建立一个GMM-HMM模型

语音识别中的GMM与之前学习的GMM有何区别？

语音识别中的GMM为对角的，因为其协方差矩阵为对角阵
为什么协方差矩阵为对角阵？因为MFCC特征之间相互独立，作了去相关，直接使用对角阵就可以描述
对角的GMM模型参数量更少，计算也更少一些

语音识别中的HMM

3状态，为什么？前人的经验。
左右模型（上一个状态只能去往下一个状态或者自跳，不可逆），为什么？和人发音类似，都是不可逆的过程
拓扑结构（s1,s2,s3为状态）

如何结合起来

每个状态都有一个对应的GMM，每个词又有对应的HMM，给出一段未知序列的时侯，就会在HMM上计算一下观测概率、转移概率，也就是做一个Viterbi算法，计算一个序列在HMM-GMM上的概率

4.3训练

从系统的角度思考

输入：词w和w所对应的训练数据
输出：词w的HMM-GMM模型，也就是其参数

关键点

任务：训练数据X_{w1},X_{w2},X_{w3}...中训练P_w(X)，估计HMM-GMM参数
准则：最大似然
方法：Vertibi学习（Viterbi训练）、Baum-Welch算法（前向后向训练）

回忆一下GMM-HMM都有哪些参数？

TAGS标签：语音别的准确率模型语音识别的准确率与语音模型基于GMMH

欢迎分享转载→http://www.youqulife.com/read-1078923.html

上一篇：陈小春应采儿笑场爸爸5陈小春说了啥

下一篇：刘亦菲版花木兰全部演员表4版本花木兰赵薇最野

精品推荐

生活中的人生感悟说说，字字千金，富含哲理！
发布时间：2024-05-13

生活标签

刘亦菲版花木兰全部演老师在学生心里是多么受尊敬动机汽缸缺火的原因发动机缺火解决方法发学知识数据分析入门难数据分析必掌握的统计雾霾口罩测评舒适防雾三月桃花风景云赏桃花完全固化的丝印油墨怎湿式自动喷水灭火系统 mac如何自由截图快吊灯膨胀螺丝安装教程我的世界海洋版新出了网络面板接线动画小白圣堡乐威士忌如何绝对圣堡 r语言多组数据相关性镇魔曲手游助手朋友圈方耐科技智能锁使用攻方耐科技小制作吸尘器小学中长锁骨发冬季齐肩初余承东讲话华为5g手手机换外屏用什么擦拭手机膜测评最好的手机膜测评三款温标是温度的什么表示温标卡农最好听的几个版本魂2新版本竟这么费脑武魂2新区押镖攻略武今年出的苹果手机最好款物机分享网络的N种方法分享手机网络的方法手 ios系统哪个版本界小米有品儿童显微镜火小米显微镜放大多少倍设计师必看的国内十个业设计一定会用到的网工业设计必学课程学工目前拍照最牛的手机是现在拍照手机最好的是最好看的十款手机这三 2023年现在像素最 2023年哪款手机性一键抠图超简单不用花 win7系统怎样在桌电脑有病毒显示不了图更多…

语音识别的准确率与语音模型基于GMM-HMM的语音识别系统

相关文章

精品推荐

生活标签

图片生活

点击排行