混合高斯模型分布最明显的性质是它的多模态,这使得混合高斯模型可以描述很多显示出多模态性质的屋里数据,比如语音数据,而单高斯分布则不合适。数据中的多模态性质可能来自多种潜在因素,每一个因素决定分布中特定的混合成分。如果因素被识别出来,那么混合分布就可以被分解成有多个因素独立分布的集合。 那么将上面公式推广到多变量的多元混合高斯分布,就是语音识别上使用的混合高斯模型,其联合概率密度函数的形式如下:
在得到混合高斯模型的形式后,需要估计混合高斯模型的一系列参数变量: ,我们主要采用最大期望值算法(Expectation Maximization, EM)进行参数估计,公式如下:
其中,j是当前迭代轮数, 为t时刻的特征向量。GMM参数通过EM算法进行估计,可以使其在训练数据上生成语音观察特征的概率最大化。此外,GMM模型只要混合的高斯分布数目足够多,GMM可以拟合任意精度的概率分布。 2.隐马尔可夫模型 为了描述语音数据,在马尔可夫链的基础上进行了扩展,用一个观测的概率分布与马尔可夫链上的每个状态进行对应,这样引入双重随机性,使得马尔可夫链不能被直接观察,故称为隐马尔可夫模型。隐马尔可夫模型能够描述语音信号中不平稳但有规律可学习的空间变量。具体的来说,直播,隐马尔可夫模型具有顺序排列的马尔可夫状态,使得模型能够分段的处理短时平稳的语音特征,并以此来逼近全局非平稳的语音特征序列。 隐马尔可夫模型主要有三部分组成。对于状态序列 (1)转移概率矩阵 ,描述马尔可夫链状态间的跳转概率: (2)马尔可夫链的初始概率 ,其中 ; (3)每个状态的观察概率分布 ,按照上一节的介绍,我们会采用GMM模型来描述状态的观察概率分布。在这种情况下,公式可以表述为:
隐马尔可夫模型的参数通过Baum-Welch算法(在HMM上EM算法的推广)进行估计。
CD-DNN-HMM 虽然GMM-HMM在以往取得了很多成功,但是随着深度学习的发展,DNN模型展现出了明显超越GMM模型的性能,替代了GMM进行HMM状态建模。不同于GMM模型,DNN模型为了获得更好的性能提升,引入了上下文信息(也即前后特征帧信息),所以被称为CD-DNN-HMM(Context-Dependent DNN-HMM)模型。在很多测试集上CD-DNN-HMM模型都大幅度超越了GMM-HMM模型。
首先简单介绍一下DNN模型,DNN模型是有一个有很多隐层的多层感知机,下图就是具有5层的DNN,模型结构上包括输入层、隐层和输出层。对于第 层,有公式: 其中 分别表示,L层的输出向量,权重矩阵,输入向量以及偏差向量(bias); 一般称为激活函数,常用的激活函数有sigmoid函数 或者整流线性单元(Rectifier Linear Unit) 。在语音识别上应用的DNN模型一般采用softmax将模型输出向量进行归一化,假设模型有L层,在特征向量为 ,输出分类数为 的情况下,则第 类的输出概率为:
相比于GMM模型,DNN模型具有一些明显的优势: 首先,DNN是一种判别模型,自身便带有区分性,可以更好区分标注类别; (责任编辑:本港台直播) |