18.1_.jpg

 
今天讲讲混合高斯分布。
 
在概率论中,随机变量是一个经常遇到的概念。那么什么是随机变量呢?随机变量其实是一种映射:从随机试验到变量的关系。
 
随机变量通常分为离散型和连续型。刻画连续型随机变量的一类常见的函数是概率密度函数(PDF),概率密度函数其实是一种极限的思想,在某个事件上的概率密度是在某个事件取值的概率与事件区间的商的极限。
 
注意,若我们对概率密度函数进行区间积分,其积分值为1,这一点也不难理解,因为事件出现的可能性的总和即概率和一定为1。
 
若一个随机变量满足高斯分布,即概率密度函数满足高斯函数。高斯分布具有均值和方差两个属性。
 
以上讨论的变量是指标量,如果一个高斯变量具有多维,那么则称为该变量服从多维高斯分布,可以使用联合概率密度函数去描述它。其均值也是一个多维向量,方差为一个协方差矩阵。
 
高斯分布在工程中应用十分广泛,原因并不是由于其计算复杂度,而是因为它符合自然界中许多现象,也满足大数定律。
 
混合高斯分布即使用多维高斯分布,那么如何去用混合高斯分布去刻画一个变量呢?对于一个连续的标量,我们可以使用多个单变量的高斯分布去叠加起来,并且每个高斯分布附加一个权重即可,这些权重之和为1。
 
混合高斯分布区别于单一高斯分布最重要的特性是它的多模性,其均值为每个分量高斯分布的均值的加权和。
 
混合高斯分布也可以泛化到多维变量。
 
至于混合高斯分布的成分个数,取决于实际问题。
 
在使用多模混合高斯分布的时候,如果成分数目过多,则造成协方差的计算量比较庞大,为了减少协方差的参数个数,我们可以选择性地使用对角协方差矩阵。

甚至,当成分数目M非常大时,我们可以限制所有的协方差矩阵一样,即把所有的协方差矩阵绑定起来。这样可以使得计算量明显减少,参数数目也减少了。
 
 
 
 

来源: 张泽旺 深度学习每日摘要
智造家