机器学习信仰之朴素贝叶斯法详解大数据
上大学那会,贝叶斯定理是用来求条件概率的;现在才知道,贝叶斯定理其实是在讲先验、似然与后验的故事。 贝叶斯定理是一种信仰。
1、频率学派与贝叶斯学派 频率学派认为,概率表述一件事发生的频率,是客观存在的一个值;同时,样本X时随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X的分布 贝叶斯学派认为概率是我们的个人的主观概念,表示我们对某件事发生的相信程度。待估计的概率theta是随机变量,服从一定的分布,而样本X时固定的,重点研究的是theta的分布。贝叶斯学派中有了三个概率:先验概率(Prior Probability)、似然函数(likelihood function)和后验概率(Posterior Probability);贝叶斯派思考的固定模式:先验分布+ 样本信息− 后验分布 2、生成模型与判别模型
朴素贝叶斯法,其中的朴素是指,特征条件独立假设,即输入特征之间是相互独立的。
朴素贝叶斯法是在特征条件独立假设的前提下,求得输入、输出的联合概率分布;再依据此模型,计算输入x下,依据贝叶斯定理求得最大后验概率的y。 可见,朴素贝叶斯法是生成模型。
设输入空间X是n维(X1, …Xn); 输出空间Y是k维(c1, c2, ….ck);
朴素贝叶斯法通过训练数据学习X,Y的联合概率分布P(X, Y)。具体的:
先验概率:P(y=ck), k=1,2…K
条件概率分布:P(X=x|y=ck) = P(X1=x1, …Xn=xn | y=ck)
依据特征条件独立性的假设,
这样就可以利用贝叶斯定理求得联合概率分布。
计算得到联合概率分布后,利用模型预测新的输入x时,计算后验概率P(y = ck | x),求出最大后验概率的ck就是x的输出。
对每个Ck,上式的分母都是一样的;求最大后验等价于求
通过上面知道,学习意味着求先验P(Y=ck)和似然P(X=x | y=ck)。 通过样本,可以采用极大似然估计法估计这两个值:
其中,N是样本数量。
有以下数据,求X=(2,S)的label
可见,朴素贝叶斯法的关键是,先由样本依据特征独立条件计算P(xi | ck),对于新输入x,就可以通过计算后验概率最大(这里,相当于联合概率最大)确定y。
不能直接从样本中去找联合概率,例如本例中不要直接肉眼看P(y=1 | (2,S)) 和P(y=-1 | (2, S)),(y=ck |(2, S))的组合甚至可以不出现在样本中,联合概率的计算需要用到独立特征的条件概率相乘;
3.4 参数估计之贝叶斯估计使用极大似然估计样本的条件概率是,可能出现概率是0的情况。会影响后验概率的计算。为了避免这种情况,解决办法之一是采用贝叶斯估计:
其中lambda 0. lambda=0时是极大似然估计;lambda=1时,成为l阿普拉斯平滑(Laplace smoothing)
参考 《统计学习方法》
9323.html
分布式文件系统,分布式数据库区块链并行处理(MPP)数据库,数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集相关文章
- 8个常见的机器学习算法的计算复杂度总结
- 机器学习方法:回归(三):最小角回归Least Angle Regression(LARS),forward stagewise selection
- 使用机器学习创建自己的Emojis 表情
- 量子机器学习新思路——构建参数化的量子线路
- 数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}
- 23个优秀的机器学习数据集,给智能更好的经验
- Python用逻辑回归、决策树、SVM、XGBoost 算法机器学习预测用户信贷行为数据分析报告
- 【机器学习】如何向5岁小孩解释什么是支持向量机(SVM)?
- R语言机器学习实战之多项式回归|附代码数据
- Absolut! 能不受约束地生成抗体-抗原结构,指导用于抗体特异性预测的机器学习方法
- 机器学习模型以出色的精度进行有机反应机理分类
- 图灵奖得主Judea Pearl谈机器学习:不能只靠数据
- 2021年机器学习、数据科学的门槛降低了吗?这是Kaggle的开发者调查
- 机器学习数据自动化分析神器-dataprep
- 机器学习之特征工程(二)详解大数据
- 如何使用 Android Things 和 TensorFlow 在物联网上应用机器学习
- 预告:关于机器学习与大数据风控,你需要知道这些 | 硬创公开课
- 一文看懂机器学习与大数据风控 | 雷锋网公开课
- Money2020重磅直击,一文看懂机器学习与大数据风控 | 新金融科技周刊
- 这届机器学习论文评比,搞怪无厘头我只服Reddit
- 快9倍!Facebook开源机器学习翻译项目fairseq
- 引入机器学习,Google表格可以帮你自动把数据做成图表