您现在的位置是：首页 > 后端

当前栏目

【机器学习算法-python实现】扫黄神器-朴素贝叶斯分类器的实现

Python 机器算法学习实现神器贝叶斯朴素

2023-09-27 14:27:08 时间

(转载请注明出处：http://blog.csdn.net/buptgshengod)

以前我在外面公司实习的时候，一个大神跟我说过，学计算机就是要一个一个贝叶斯公式的套用来套用去。嗯，现在终于用到了。朴素贝叶斯分类器据说是好多扫黄软件使用的算法，贝叶斯公式也比较简单，大学做概率题经常会用到。核心思想就是找出特征值对结果影响概率最大的项。公式如下： $P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}$
什么是朴素贝叶斯，就是特征值相互独立互不影响的情况。贝叶斯可以有很多变形，这里先搞一个简单的，以后遇到复杂的再写。 2.数据集摘自机器学习实战。

[[my,dog,has,flea,problems,help,please], 0

[maybe,not,take,him,to,dog,park,stupid], 1

[my,dalmation,is,so,cute,I,love,him], 0

[stop,posting,stupid,worthless,garbage], 1

[mr,licks,ate,my,steak,how,to,stop,him], 0

[quit,buying,worthless,dog,food,stupid]] 1

以上是六句话，标记是0句子的表示正常句，标记是1句子的表示为粗口。我们通过分析每个句子中的每个词，在粗口句或是正常句出现的概率，可以找出那些词是粗口。

#以矩阵形式创建数据集

def loadDataSet():

 postingList=[[my, dog, has, flea, problems, help, please],

 [maybe, not, take, him, to, dog, park, stupid],

 [my, dalmation, is, so, cute, I, love, him],

 [stop, posting, stupid, worthless, garbage],

 [mr, licks, ate, my, steak, how, to, stop, him],

 [quit, buying, worthless, dog, food, stupid]]

 classVec = [0,1,0,1,0,1] #1 is abusive, 0 not 

 return postingList,classVec

vocabSet = vocabSet | set(document) #union of the two sets return list(vocabSet)

returnVec[vocabList.index(word)] = 1 else: print "the word: %s is not in my Vocabulary!" % word return returnVec

def trainNB0(trainMatrix,trainCategory):

 numTrainDocs = len(trainMatrix)

 numWords = len(trainMatrix[0])

 pAbusive = sum(trainCategory)/float(numTrainDocs)#脏句的比例 

 p0Num = zeros(numWords); p1Num = zeros(numWords) #zero是numpy带的函数，zeros(i)长度为i的list 

 p0Denom = 0.0; p1Denom = 0.0 

 for i in range(numTrainDocs):

 if trainCategory[i] == 1:#如果是粗口句，每个词在p1num加一

 p1Num += trainMatrix[i]

 p1Denom += sum(trainMatrix[i])

 else:

 p0Num += trainMatrix[i]

 p0Denom += sum(trainMatrix[i])

 p1Vect = p1Num/p1Denom #粗口字概率

 p0Vect = p0Num/p0Denom 

 return p0Vect,p1Vect,pAbusive

实现效果: 输出粗口字概率list：

[ 0. 0. 0. 0.05263158 0.05263158 0. 0.

0. 0.05263158 0.05263158 0. 0. 0.

0.05263158 0.05263158 0.05263158 0.05263158 0.05263158 0.

0.10526316 0. 0.05263158 0.05263158 0. 0.10526316

0. 0.15789474 0. 0.05263158 0. 0. 0. ]

出现概率最大项：

0.157894736842

对应的词是：stupid

[cute, love, help, garbage, quit, I, problems, is, park, stop, flea, dalmation, licks, food, not, him, buying, posting, has, worthless, ate, to, maybe, please, dog, how, stupid, so, take, mr, steak, my]

下载地址（Bayes）

Python机器学习算法入门教程（四）我们知道有监督学习分为“回归问题”和“分类问题”，前面我们已经认识了什么是“回归问题”，从本节开始我们将讲解“分类问题”的相关算法。在介绍具体的算法前，我们先聊聊到底什么是分类问题。
Python机器学习算法入门教程（三）本节讲解如何构建线性回归算法中的“线性模型”，所谓“线性”其实就是一条“直线”。因此，本节开篇首先普及一下初中的数学知识“一次函数”。
Python机器学习算法入门教程（二）常言道“工欲善其事，必先利其器”，在学习机器学习算法之前，我们需要做一些准备工作，首先要检查自己的知识体系是否完备，其次是要搭建机器学习的开发环境。
Python机器学习算法入门教程（一）（下）机器学习（Machine Learning，简称 ML）是人工智能领域的一个分支，也是人工智能的核心，其涉及知识非常广泛，比如概率论、统计学、近似理论、高等数学等多门学科。
Python机器学习算法入门教程（一）（上）机器学习（Machine Learning，简称 ML）是人工智能领域的一个分支，也是人工智能的核心，其涉及知识非常广泛，比如概率论、统计学、近似理论、高等数学等多门学科。
Python机器学习算法入门指南（全）机器学习作为人工智能领域的核心组成，是计算机程序学习数据经验以优化自身算法，并产生相应的“智能化的”建议与决策的过程。
机器学习实战 | Python机器学习算法应用实践本篇文章详解机器学习应用流程，应用在结构化数据和非结构化数据(图像)上，借助案例重温机器学习基础知识，并学习应用机器学习解决问题的基本流程。
傲海著有《机器学习实践应用》，阿里云机器学习PAI产品经理，个人微信公众号 ldquo;凡人机器学习 rdquo;。

猜你喜欢

智慧城市下半场：蓬勃的数字经济与开放的信息市场
PLM与企业信息化
【MATLAB教程案例1】通信系统中成形滤波器原理的MATLAB设计实现
Python核心编程三大神兽——迭代器、生成器、以及装饰器
Mongo集群之主从复制
IMX6ULL 自学笔记（驱动开发）
Scala教程之:静态类型
git diff ^M的消除
我在 Elasticsearch 集群内应该设置多少个分片？
Mac - MySQL初始密码忘记重置MySQL root密码
『迷你教程』Xgboost特征重要性的计算方式一共有3种？
[第九届蓝桥杯省赛C++B组]日志统计
《像计算机科学家一样思考Python》——4.7　重构
移动端布局——flex布局下的居中对齐方式(1+X Web前端开发初级例题)
C#各种配置文件使用，操作方法总结
android开发，对接支付宝，服务器（PHP）校验失败
华为OD机试 - 查找接口成功率最优时间段（Java） | 机试题+算法思路+考点+代码解析【2023】
Java 字符串 String
【JavaScript】JavaScript脚本代码的位置及在页面中的执行顺序
iOS-UITextField中给placeholder动态设置颜色的四种方法
《妥协的完美主义：优秀产品经理的实践指南（卷二）》一2.5　产品设计团队能力要求
[LeetCode] Validate IP Address 验证IP地址

相关主题

python的变量
Python之对象
Python-Python入门
python set操作
python tushare
Python __dict__
Python 7步机器学习
python_6_if

zl程序教程

当前栏目

【机器学习算法-python实现】扫黄神器-朴素贝叶斯分类器的实现

相关文章