决策树原理、Scikit-learn实现及其在生物信息中的应用
之前转过一篇文章:2016年GitHub排名前20的Python机器学习开源项目(转),说明现在已经有了很多很好的机器学习的包,我们不必从底层开始实现,只要懂点算法、会看文档,一般人也能玩好机器学习。
随着生信领域的数据量越来越多,我们得到知识的途径必然会发生变化,慢慢地我们将不再使用固定呆板的模型,而是使用灵活的机器学习方法从海量数据中提取出知识。
现在我准备开一系列的机器学习算法原理及python包的实例的文章,开始全面的熟悉python和机器学习。
决策树--从原理到实现 机器学习 - CSDN
算法杂货铺——分类算法之决策树(Decision tree)
看完上面几个教程基本就能搞懂决策树了。
首先需要一些信息论的基础:
信息增益:ID3,g(D,A) = H(D)-H(D|A),表示了特征A使得数据集D的分类不确定性减少的程度。
信息增益比:C4.5,g‘(D,A)=g(D,A) / H(D),消除了H(D)的影响
基尼指数:CART,(经济学中也有个基尼指数反应社会的贫富差距,链接)
ID3算法就是对各个feature信息计算信息增益,然后选择信息增益最大的feature作为决策点将数据分成两部分。
C4.5与ID3相比其实就是用信息增益比代替信息增益,因为信息增益有一个缺点:信息增益选择属性时偏向选择取值多的属性。
CART(classification and regression tree)的算法整体过程和上面的差异不大,然是CART的决策是二叉树的每一个决策只能是“是”和“否”,换句话说,即使一个feature有多个可能取值,也只选择其中一个而把数据分类两部分而不是多个,它用到的是基尼指数。
注意:Scikit-learn在Linux上很好安装,直接使用pip就可以,而在Windows上很麻烦,乱七八糟的错误。
生物信息领域:Decision Tree Classifiers in Bioinformatics
待续~
相关文章
- 数据库原理及应用
- 如何使用ModelBox快速提升AI应用性能?
- 一文为你详解Unique SQL原理和应用
- VUE单页应用首屏加载优化技巧
- 干货,一文带你超详细了解Session的原理及应用
- 微信安装包11年膨胀575倍,UP主:“98%的文件是垃圾”;苹果应用商店被曝大量色情App;四大科技巨头呼吁废除闰秒|极客头条
- 10种开发以及改善应用的低成本方法
- 零售店中的物联网应用:七项真实案例
- 《区块链原理、设计与应用》一1.1 从实体货币到数字货币
- D3 GEO应用专题(一):绘制旋转的3D地球
- ucenter与其它应用结合时出现通信失败,ucenter应用原理与调试
- 数商云采购系统解决方案 | 建筑工程行业采购管理之招标业务场景应用
- 数商云采购系统解决方案 | 建筑工程行业采购管理之招标业务场景应用
- 干货 | 轮廓逼近原理与OpenCV应用(附Python-OpenCV文档下载)
- 工业智能网关BL110应用之19:实现三菱 PLC FX2N 接入MQTT Client One云平台
- 工业智能网关BL110应用之五十: 数据上传云金鸽Modbus的配置
- 开源代码及Linux系统在云计算中的应用
- caffe学习--Lenet5的应用和原理、实现----ubuntu16.04.2+caffe+mnist+train+test
- Flink中窗口的划分与应用
- USB接口芯片CH375的原理及应用
- 应用性能管理工具怎么选?掌握四项基本原则
- 物联网云平台——物联网应用、硬件、产业生态
- token与session原理及应用
- vue 单页应用(spa)前端路由实现原理
- Java深入理解AOP(什么是AOP,AOP底层实现原理、应用)