本文主要讲述了贝叶斯后验分布与最大似然分布之间的差别。贝叶斯后验分布从参数分布的角度去认识参数;而最大似然是一个点估计法,估计的是模型最有可能的参数组合,相对于贝叶斯后验估计来说,它只考虑了参数分布的期望,即最大似然的结果就是后验分布的期望,没有考虑到参数分布中其他的可能性。
贝叶斯建模
贝叶斯建模:将问题转化为贝叶斯公式的形式,即给定数据D,参数θ,我们要求解的是参数θ的后验分布p(θ∣D)。
通用形式可以写为
D∼p(D∣θ)←数据生成分布,模型数据的分布θ∼p(θ)←参数的先验分布
我们想要学习参数在给定数据下的后验分布p(θ∣D)
p(θ∣D)∝p(D∣θ)p(θ)
简单用例:Beta-Bernoulli 模型
假设我们有一个硬币,我们不知道这个硬币是公平的还是不公平的,我们想要通过抛硬币的结果来估计这个硬币是公平的概率。
我们有一系列观测值X1,X2,...XN,其中Xi∈{0,1},1表示正面,0表示反面。
假设每个Xi来自于数据生成分布,服从P(Xi=1∣π)=π
进一步假设Xi是独立同分布的,即
P(X1,X2,...XN∣π)=i=1∏NP(Xi∣π)
由于P(X−i∣π)=πXi(1−π)1−Xi,上述式子可以写成
P(X1,X2,...XN∣π)=π∑i=1NXi(1−π)N−∑i=1NXi
由此可以得到我们需要的π关于数据Xi的后验分布,
p(π∣X1,X2,...XN)∝π∑i=1NXi(1−π)N−∑i=1NXip(π)
观察上述式子,紧接着来到下一个问题,我们如何选择先验分布p(π)?
共轭先验
Beta分布
Beta(a,b)=Γ(a)Γ(b)Γ(a+b)πa−1(1−π)b−1
可以发现,Beta分布的形式与似然项形式相近,因此我们可以尝试使用Beta分布作为先验分布。
p(π∣X1,X2,...XN)∝π∑i=1NXi+a−1(1−π)N−∑i=1NXi+b−1
观察上式发现:
- Γ(a)Γ(b)Γ(a,b)被舍弃了,因为它与π无关,可以视为一个常数
- 后验分布同样正比于Beta(a+∑iXi,b+N−∑iXi)分布
因此,后验分布服从Beta分布
π∣X1,X2,...XN∼Beta(a+i∑Xi,b+N−i∑Xi)
注意到,我们选择Beta分布作为参数π的鲜艳分布,我们发现它的后验分布同样是也是Beta分布,这种性质称为共轭性。
共轭先验价值:有了共轭先验这个性质,我们只需要收集足够多的数据就可以估计出后验分布,如抛硬币问题中,我们只需要计数正面向上的次数∑iXi以及反面向上次数N−∑iXi
贝叶斯后验能够得到什么?
基于抛硬币的贝叶斯建模问题,我们可以得到参数π后验分布的期望以及方差
E(π∣X1,X2,...XN)=a+b+Na+∑iXiVar(π∣X1,X2,...XN)=(a+b+N)2(a+b+N+1)(a+∑iXi)(b+N−∑iXi)
注意到随着N的增加,
与最大似然估计比较(寻找一个最佳点估计)
πMLE=N∑iXi
贝叶斯估计捕获了参数的不确定性,因此在数据量较少的情况下,贝叶斯估计更加稳定。