有趣生活

当前位置:首页>科技>语音识别的准确率与语音模型基于GMM-HMM的语音识别系统

语音识别的准确率与语音模型基于GMM-HMM的语音识别系统

发布时间:2026-06-01阅读(0)

导读1.背景知识回顾1.1特征提取数字信号的基本知识MFCC/Fbank特征1.2混合高斯模型GMMGMM模型EM算法1.3隐马尔科夫模型HMM的三个基本问题(....1.背景知识回顾1.1特征提取
  • 数字信号的基本知识
  • MFCC/Fbank特征
1.2混合高斯模型GMM
  • GMM模型
  • EM算法
1.3隐马尔科夫模型
  • HMM的三个基本问题(概率问题,预测问题,学习问题)
2.GMM-HMM语音识别框架与概念

终极目的:让机器听懂

首先要出三个概念:

  • 对齐:“音频wav”和“文本txt“的对应关系
  • 训练:已知对齐(wav和txt),迭代计算模型参数
  • 解码:根据训练得到的模型参数,由wav推出txt

3.内容提要3.1基于孤立词的GMM-HMM语音识别系统
  • 训练(前向后向训练/Viterbi训练)
  • 解码
3.2基于单音素的GMM-HMM语音识别系统
  • 音素/词典
  • 训练
  • 解码
3.3基于三音素的GMM-HMM语音识别系统
  • 三音素
  • 决策树
  • 训练
  • 解码
3.4基于GMM-HMM语音识别系统流程4.基于孤立词的GMM-HMM语音识别系统
  • 孤立词的概念:所谓孤立词就是对于训练数据和测试数据,语音数据仅包含一个数字或者一个词
  • 考虑一个最简单的从0~9这样的一个语音识别系统
    • 数据准备
    • 建模
    • 如何训练
    • 如何测试(解码)

  • 从上图中很明显可以看出,对于每个数字,我们都要建立一个对应的模型,对于训练数据中的语音数据,通常会提取其MFCC特征向量
4.1目标

X_{test}测试特征,P_w(X)是词w的概率模型,vocab是词表(在该实例中为0~9 10个数字)

  • 为每个词都建立了一个模型P_{one}(X),P_{two?(X)},P_{three}(X)...
  • 计算在每个词上的概率
  • 选择所有词中概率最大的此作为识别结果

但是对于该语音任务具有的特性,序列性、不定长性,又该如何建模?

4.2建模

词(语音)是一个序列,P_w(X)可以用HMM的概率问题来进行描述,并且语音经过MFCC特征提取后也会变成连续概率密度分布

回想一下GMM-HMM

  • GMM概率密度建模
  • HMM序列建模

这时候对于这十个词,我们可以为每个词建立一个GMM-HMM模型

语音识别中的GMM与之前学习的GMM有何区别?

  • 语音识别中的GMM为对角的,因为其协方差矩阵为对角阵
  • 为什么协方差矩阵为对角阵?因为MFCC特征之间相互独立,作了去相关,直接使用对角阵就可以描述
  • 对角的GMM模型参数量更少,计算也更少一些

语音识别中的HMM

  • 3状态 , 为什么?前人的经验。
  • 左右模型(上一个状态只能去往下一个状态或者自跳,不可逆),为什么?和人发音类似,都是不可逆的过程
  • 拓扑结构(s1,s2,s3为状态)

如何结合起来

每个状态都有一个对应的GMM,每个词又有对应的HMM,给出一段未知序列的时侯,就会在HMM上计算一下观测概率、转移概率,也就是做一个Viterbi算法,计算一个序列在HMM-GMM上的概率

4.3训练
  • 从系统的角度思考
    • 输入:词w和w所对应的训练数据
    • 输出:词w的HMM-GMM模型,也就是其参数
  • 关键点
    • 任务:训练数据X_{w1},X_{w2},X_{w3}...中训练P_w(X),估计HMM-GMM参数
    • 准则:最大似然
    • 方法:Vertibi学习(Viterbi训练)、Baum-Welch算法(前向后向训练)
  • 回忆一下GMM-HMM都有哪些参数?

Copyright © 2024 有趣生活 All Rights Reserve吉ICP备19000289号-5 TXT地图HTML地图XML地图