本文主要讲述了贝叶斯后验分布与最大似然分布之间的差别。贝叶斯后验分布从参数分布的角度去认识参数;而最大似然是一个点估计法,估计的是模型最有可能的参数组合,相对于贝叶斯后验估计来说,它只考虑了参数分布的期望,即最大似然的结果就是后验分布的期望,没有考虑到参数分布中其他的可能性。

贝叶斯建模

贝叶斯建模:将问题转化为贝叶斯公式的形式,即给定数据DD,参数θ\theta,我们要求解的是参数θ\theta的后验分布p(θD)p(\theta|D)

通用形式可以写为

Dp(Dθ)数据生成分布,模型数据的分布θp(θ)参数的先验分布D \sim p(D|\theta) \leftarrow 数据生成分布,模型数据的分布 \\ \theta \sim p(\theta) \leftarrow 参数的先验分布 \\

我们想要学习参数在给定数据下的后验分布p(θD)p(\theta|D)

p(θD)p(Dθ)p(θ)p(\theta|D) \propto p(D|\theta)p(\theta)

简单用例:Beta-Bernoulli 模型

假设我们有一个硬币,我们不知道这个硬币是公平的还是不公平的,我们想要通过抛硬币的结果来估计这个硬币是公平的概率。
我们有一系列观测值X1,X2,...XNX_1,X_2,...X_N,其中Xi{0,1}X_i \in \{0,1\},1表示正面,0表示反面。

假设每个XiX_i来自于数据生成分布,服从P(Xi=1π)=πP(X_i = 1|\pi) = \pi

进一步假设XiX_i是独立同分布的,即

P(X1,X2,...XNπ)=i=1NP(Xiπ)P(X_1,X_2,...X_N|\pi) = \prod_{i=1}^{N}P(X_i|\pi)

由于P(Xiπ)=πXi(1π)1XiP(X-i|\pi) = \pi^{X_i}(1-\pi)^{1-X_i},上述式子可以写成

P(X1,X2,...XNπ)=πi=1NXi(1π)Ni=1NXiP(X_1,X_2,...X_N|\pi) = \pi^{\sum_{i=1}^{N}X_i}(1-\pi)^{N-\sum_{i=1}^{N}X_i}

由此可以得到我们需要的π\pi关于数据XiX_i的后验分布,

p(πX1,X2,...XN)πi=1NXi(1π)Ni=1NXip(π)p(\pi|X_1,X_2,...X_N) \propto \pi^{\sum_{i=1}^{N}X_i}(1-\pi)^{N-\sum_{i=1}^{N}X_i}p(\pi)

观察上述式子,紧接着来到下一个问题,我们如何选择先验分布p(π)p(\pi)

共轭先验

Beta分布

Beta(a,b)=Γ(a+b)Γ(a)Γ(b)πa1(1π)b1Beta(a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\pi^{a-1}(1-\pi)^{b-1}

可以发现,Beta分布的形式与似然项形式相近,因此我们可以尝试使用Beta分布作为先验分布。

p(πX1,X2,...XN)πi=1NXi+a1(1π)Ni=1NXi+b1p(\pi|X_1,X_2,...X_N) \propto \pi^{\sum_{i=1}^{N}X_i+a-1}(1-\pi)^{N-\sum_{i=1}^{N}X_i+b-1}

观察上式发现:

  • Γ(a,b)Γ(a)Γ(b)\frac{\Gamma(a,b)}{\Gamma(a)\Gamma(b)}被舍弃了,因为它与π\pi无关,可以视为一个常数
  • 后验分布同样正比于Beta(a+iXi,b+NiXi)Beta(a+\sum_i X_i , b+N - \sum_iX_i)分布

因此,后验分布服从Beta分布

πX1,X2,...XNBeta(a+iXi,b+NiXi)\pi|X_1,X_2,...X_N \sim Beta(a+\sum_i X_i , b+N - \sum_iX_i)

注意到,我们选择Beta分布作为参数π\pi的鲜艳分布,我们发现它的后验分布同样是也是Beta分布,这种性质称为共轭性。

共轭先验价值:有了共轭先验这个性质,我们只需要收集足够多的数据就可以估计出后验分布,如抛硬币问题中,我们只需要计数正面向上的次数iXi\sum_iX_i以及反面向上次数NiXiN - \sum_iX_i

贝叶斯后验能够得到什么?

基于抛硬币的贝叶斯建模问题,我们可以得到参数π\pi后验分布的期望以及方差

E(πX1,X2,...XN)=a+iXia+b+NVar(πX1,X2,...XN)=(a+iXi)(b+NiXi)(a+b+N)2(a+b+N+1)E(\pi|X_1,X_2,...X_N) = \frac{a+\sum_iX_i}{a+b+N} \\ Var(\pi|X_1,X_2,...X_N) = \frac{(a+\sum_iX_i)(b+N-\sum_iX_i)}{(a+b+N)^2(a+b+N+1)}

注意到随着NN的增加,

  • 期望收敛到实际正面向上的次数
  • 方差收敛到0

与最大似然估计比较(寻找一个最佳点估计)

πMLE=iXiN\pi_{MLE} = \frac{\sum_iX_i}{N}

贝叶斯估计捕获了参数的不确定性,因此在数据量较少的情况下,贝叶斯估计更加稳定。