zl程序教程

您现在的位置是:首页 >  后端

当前栏目

mle与map_normal map

Map normal
2023-06-13 09:15:14 时间

摘要

本文是关于MLE(最大似然估计)与MAP(最大后验概率)的一些自己学习的心得. (本文的重点在于对比MLE和MAP)

正文

1.MLE(最大似然估计)

MLE简单的理解可以这样:假设我们手上有一批数据(样本),而且我们假设这些数据(样本)服从某个分布( 模型已知),但是参数未知.这个时候,我们希望对这个参数进行估计,而MLE的思想就是找到一个参数值,使得每条样本出现的概率最大!

具体来说假设样本为 x1,x2.....xn x 1 , x 2 . . . . . x n x_1,x_2.....x_n,待估计的参数为 θ θ \theta. 那么要优化的目标为: argmax P(x1,x2,...xn|θ)(0) (0) a r g m a x P ( x 1 , x 2 , . . . x n | θ ) argmax \ P(x_1,x_2,...x_n|\theta) \tag 0 假设每个样本间独立同分布那么我们有: argmaxni=1P(xi|θ)(1) (1) a r g m a x ∏ i = 1 n P ( x i | θ ) argmax \ \prod_{i=1}^n{P(x_i|\theta)} \tag 1 后面一般是取对数,把连乘转化成连加的形式更方便计算,后面就不展开了.

2.MAP(最大后验概率)

还是同样的场景:我们有一批数据(样本),我们假设其服从某个分布(模型已知),参数未知.但是,我们还有一个额外的信息就是,我们虽然不知道参数具体是多少,但是我们知道这个参数也服从某个分布,MAP就是加上这个条件后,去对我们的参数进行估计.

具体可以表现为: argmax P(θ|x1,x2,...xn)(2) (2) a r g m a x P ( θ | x 1 , x 2 , . . . x n ) argmax \ P(\theta|x_1,x_2,...x_n) \tag 2 做一步贝叶斯公式有: argmax P(θ|x1,x2,...xn)=P(x1,..xn|θ)P(θ)P(x1,x2...xn)(3) (3) a r g m a x P ( θ | x 1 , x 2 , . . . x n ) = P ( x 1 , . . x n | θ ) P ( θ ) P ( x 1 , x 2 . . . x n ) \large argmax \ P(\theta|x_1,x_2,...x_n)=\frac{P(x_1,..x_n|\theta)P(\theta)}{P(x_1,x_2...x_n)} \tag3

其中 P(θ) P ( θ ) P(\theta)就是我们对 θ θ \theta的一个先验分布 对于分子,我们可以看到,其实就是先验分布和似然概率的乘积.

所以在经过几步的简单推导,我们可以得出MLE和MAP其实区别在于:

首先,我们不要忘了我们的目的,我的们目的是求模型中未知的参数! 1.MLE是通过直接最大化似然概率 P(x1,..xn|θ) P ( x 1 , . . x n | θ ) P(x_1,..x_n|\theta)来求解参数 θ θ \theta,而MAP是通过最大化似然概率×先验分布,即 P(x1,..xn|θ)P(θ) P ( x 1 , . . x n | θ ) P ( θ ) P(x_1,..x_n|\theta)P(\theta)来求解参数 θ θ \theta.

那这里似乎透露着利用MAP来估计参数会不会使得模型更加的好?这就取决于我们的这个先验概率捏的准不准.

MLE和MAP的联系在于: 1.两者都是用于模型已知,参数未知下对参数进行估计的方法

更多详细的参考资料: 参考资料1 参考资料2

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/230248.html原文链接:https://javaforall.cn