今天谈谈混合高斯分布中的参数估计。
 
对于一个混合高斯分布,具有三个基本的参数,它们分别是:权重向量、均值向量、协方差矩阵。
 

对于以上三个的估计称为参数估计,又称为参数学习。
 

混合高斯模型的重点在于参数估计,即如何确定最优的权重向量、均值向量、协方差矩阵。
 

参数估计所使用的方法是最大似然(ML)的方法,或者说是期望最大化(EM)算法。只要给定了混合分布的个数,EM算法就可以用来确定该分布的所有参数。
 

EM算法属于一种迭代型算法,它主要由两个步骤。E-step和M-step。E-step是指对均值进行估计,M-step是指对权重向量、均值向量、协方差矩阵进行重新估计。
 

概括一下,就是说这一步迭代是基于上一步迭代所得到的参数,使用上一步迭代得到的参数,再把输入数据代入其中即可得到条件概率,基于此条件概率,就可以得到新的参数。
 

EM迭代算法被证明是可以逐步收敛的,只不过收敛速度可能有点慢。并且EM算法要依赖于参数的初始化。
 

EM迭代算法在隐马尔科夫模型的求解中也有用到。
 

在语音识别中,语音信号通常首先需要进行傅里叶变换,按每帧25ms划分音频,然后得到每帧的特征向量数据。在深度学习还没有成为主流的时候,通常采取GMM对特征向量分布进行拟合,当然做这个的前提是不考虑特征之间的时序关系。
 

GMM可以拟合任意复杂的分布,因为其具有多模性,因此GMM很常用于分类问题,GMM在语音识别中需要被集成到隐马尔科夫模型(HMM)中去,这是由于语音数据是一种时序特征,仅仅依靠GMM是无法较好地拟合的,而HMM就具有时序依赖关系,很好地解决了此问题。HMM是对状态之间的关系进行刻画,而GMM可以对每个状态进行拟合。这里的状态可以认为是音标或字母。
 

尽管GMM很方便去拟合音频特征,但是GMM也有缺点,那就是具有统计低效性。统计低效性怎么理解呢?比如说有一个数据集,其可能是一个圆形,也就是说拟合它们只需要几个参数就行了,但是如果用GMM去拟合,就需要大量参数。所以使用GMM去拟合音频特征,并非最高效的,而且GMM也无法较好地刻画长期时序依赖关联性。
 
 
 
 
 
来源: 张泽旺 深度学习每日摘要
智造家