CART(分类回归树)
1.简单介绍
线性回归方法可以有效的拟合所有样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法一个是困难一个是笨拙。此外,实际中很多问题为非线性的,例如常见到的分段函数,不可能用全局线性模型来进行拟合。
树回归将数据集切分成多份易建模的数据,然后利用线性回归进行建模和拟合。这里介绍较为经典的树回归CART(classification and regression trees,分类回归树)算法。
构建树:
1.找到[最佳待切分特征]
2.若不能再切分,则将该节点存为[叶子节点]并返回
3.按照最佳待切分特征将数据集切分成左右子树(这里为了方便,假设大于特征值则为左,小于则归为右)
4.对左子树进行[构建树]
5.对右子树进行[构建树]
最佳待切分特征:
1.遍历特征
1.1遍历特征所有特征值
1.1.1计算按该特征值进行数据集切分的[误差]
2.选择误差最小的特征及其相应值作为最佳待切分特征并返回
基于回归树的预测:
1.判断当前回归树是否为叶子节点,如果是则[预测],如果不是则执行2
2.将测试数据相应特征上的特征值与当前回归树进行比较,如果测试数据特征值大,则判别当前回归树的左子树是否为叶子节点,如果不是叶子节点则进行[基于回归树的预测],如果是叶子节点,则[预测];反之,判别当前回归树的右子树是否为叶子节点,如果不是叶子节点则进行[基于回归树的预测],如果是叶子节点,则[预测]
误差、叶子节点和预测三者有相关的关联关系,一种相对简单的是误差采用的是y值均方差,叶子节点相应的建立为该节点下所有样本的y值平均值,预测的时候根据判断返回该叶子节点下y值平均值即可。
在进行最佳待切分特征选取的时候,一般还有两个参数,一个是允许的误差下降值,一个是切分最小样本数。对于允许误差下降值,在实际过程中,需要在分割之后其误差减少应该至少大于该bound;对于切分最小样本数,也就是说切分后的子树中包含的样本数应该多于该bound。其实这两种策略都是为了避免过拟合。
通过在最佳待切分特征选取时进行参数设定来避免过拟合,这其实是一种预剪枝的行为;而在回归树建立后,再进行剪枝,则是一种后剪枝的行为。
后剪枝的过程如下:
如果存在任一子集是一棵树,则在该子集中递归剪枝
计算当前两个叶子节点合并后的误差
计算不合并的误差
比较合并前后误差,如果合并后的误差降低,则对叶子节点进行合并
之前讲到误差、叶子节点和预测三者具备关联关系,当建立叶子节点是基于模型的,则构建了相应的模型树。这里可以使用之前的线性回归模型,建立相应的叶子节点。这样误差计算采用的将是线性回归中的误差,而预测则是基于该叶子节点拟合其样本后的参数。
这里createTree负责进行树的构建;chooseBestSplit函数负责进行最佳带切特征的选取,而ops参数则是进行了两个bound的设定;prune进行了相关后剪枝。
这里regErr、regLeaf、regTreeEval是基于简单均值计算的误差、叶子节点和预测;而modelErr、modelLeaf和modelTreeEval(+linearSolve)则是基于线性回顾模型的误差、叶子节点和预测。
数据集链接:http://pan.baidu.com/share/link?shareid=3744521160&uk=973467359 密码:9ivd
相关文章
- 【Python算法】分类与预测——logistic回归分析
- 机器学习笔记(三)---- 逻辑回归(二分类)
- 分类-回归树模型(CART)在R语言中的实现
- 分类-回归树模型(CART)在R语言中的实现
- 数据挖掘中的基于决策树的分类方法
- 机器学习笔记 - Kaggle竞赛 稻田病害分类
- Atitit.php opcode虚拟机指令集 分类以及详细解释
- Paper:自动驾驶领域SAE标准之《道路机动车辆驾驶自动化系统相关术语的分类和定义》官方英文原文翻译与解读(二)
- ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)最全案例应用
- ML之LoR:基于LoR(逻辑回归)算法对乳腺癌肿瘤(9+1)进行二分类预测(良/恶性)
- NLP之TEA之NB/LoR:利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+TfidfVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析—五分类预测
- NLP之TEA之NB/LoR:利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+CountVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析—五分类预测
- 【图像处理】用于图像分类的局部约束线性编码(Python代码实现)
- 机器学习笔记(四)---- 逻辑回归的多分类
- 基于鸟群优化的BP神经网络(分类应用) - 附代码
- Python实现贝叶斯优化器(Bayes_opt)优化Catboost分类模型(CatBoostClassifier算法)项目实战
- 【机器学习具体解释】SVM解二分类,多分类,及后验概率输出
- 【数据挖掘】十大算法之ID3决策树生成算法和CART分类回归树算法
- 使用TF-IDF+逻辑回归完成分类