Coursera台大机器学习技法课程笔记10-Random forest
2023-09-14 08:57:33 时间
随机森林就是要将这我们之前学的两个算法进行结合:bagging能减少variance(通过g们投票),而decision tree的variance很大,资料不同,生成的树也不同。
为了得到不同的g,除了用bootstrap用不同的资料得到不同的g外,还可以采用随即选择特征的方式:
为了增加特征的随机性,将特征投影到任意方向上:
bagging中,没有被选中的资料被称为OOB:
在N次选择中都没有被选中的概率是:
可以用OOB来做validation,不同的是,不需要对每个g来做,可以用G-来做,然后取平均值,最后衡量的是Eoob
OOB选择模型和validation选择模型的区别:validation要经过两次的训练,OOB只需要一次:
特征选择:对于线性模型,可以根据重要性对特征进行选择。RF是非线性模型,该如何选择呢?
对于RF,可以使用如下方式来衡量某个特征的重要性:
可以采用permutation+OOB的方式来进行RF的特征选择:
可以参考这位博主的博客:http://blog.csdn.net/lho2010/article/details/43732935
相关文章
- 机器学习笔记(一)----基本概念
- Coursera台大机器学习技法课程笔记07-Blending and Bagging
- Coursera台大机器学习技法课程笔记05-Kernel Logistic Regression
- Coursera台大机器学习课程笔记15 -- Three Learning Principles
- 机器学习入门 - Google机器学习速成课程 - 笔记汇总
- R语言与机器学习学习笔记
- 机器学习笔记:k近邻算法介绍及基于scikit-learn的实验
- 机器学习笔记 - 自相关和偏自相关简介
- 机器学习笔记 - 使用K近邻(k-Nearest Neighbo)算法进行手写识别
- 机器学习笔记 - 使用TensorFlow Lite从头创建模型
- 机器学习笔记 - 监督学习备忘清单
- 机器学习笔记 - Kaggle大师Janio Martinez Bachmann的故事
- 机器学习笔记 - 图解对象检测任务(1)
- 机器学习笔记 - 加速神经网络训练的 7 个技巧
- 机器学习笔记 - 使用SMOTE和Near Miss算法处理不平衡数据
- 机器学习笔记 - 如何像数据科学家一样思考
- 机器学习笔记 - tensorFlow的estimator和keras API
- 机器学习笔记 - 使用opencv的基于深度学习的超分辨率图像处理