您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第8章集成学习——8.4 GBDT算法（逐次估值逼近）

机器集成算法学习系列完整版估值逼近

2023-09-11 14:14:53 时间

Gradient Boosting的重要代表有GBDT，它是通过不断改进估算来实现的，即逐次估值进行逼近

GBDT算法

Gradient Boosting的重要代表有GBDT，它是通过不断改进估算来实现的，下面以简单情况来描述其思路。

设训练集为 $D=\{\boldsymbol{x}_i,y_i\}_{i=1}^m$ ，其中， $y_i$ 为连续型，即为回归问题，对于二分类问题取 $y_i$ 为属于正例的概率即可。

第0次估值（即初始化）：

数据集 $D$ 中所有样本 $\boldsymbol{x}_i$ ： $\hat{y}_i^0=\frac{1}{m}\sum_{i=1}^my_i$ （常数）。
推广到所有的 $\boldsymbol{x}$ ： $F_0(\boldsymbol{x})=\frac{1}{m}\sum_{i=1}^my_i$ 。
这时，所有样本的预测值都是一样的，显然不靠谱，好在它只是个初始化。数据集 $D$ 中样本 $\boldsymbol{x}_i$ 的残差为： ${\varepsilon}_i^1=y_i-\hat{y}_i^0$ ，形成数据集 $D_1=\{\boldsymbol{x}_i,{\varepsilon}_i^1\}_{i=1}^m$ ，在 $D_1$ 上使用CART树【西瓜书第4.2.3节】进行回归，学习得到 $h_1(\boldsymbol{x})$ 。

第1次估值：

对任意的 $\boldsymbol{x}$ ： $F_1(\boldsymbol{x})=F_0(\boldsymbol{x})+h_1(\boldsymbol{x})$ （对上次的估值用残差校正）。
数据集 $D$ 中样本 $\boldsymbol{x}_i$ ： $\hat{y}_i^1=F_1(\boldsymbol{x}_i)$ 。

这时，数据集 $D$ 中样本 $\boldsymbol{x}_i$ 的残差为： ${\varepsilon}_i^2=y_i-\hat{y}_i^1$ ，形成数据集 $D_2=\{\boldsymbol{x}_i,{\varepsilon}_i^2\}_{i=1}^m$ ，在 $D_2$ 上使用CART树学习得到 $h_2(\boldsymbol{x})$ 。

第2次估值：

对任意的 $\boldsymbol{x}$ ： $F_2(\boldsymbol{x})=F_1(\boldsymbol{x})+h_2(\boldsymbol{x})$ （对上次的估值用残差校正）。
数据集 $D$ 中样本 $\boldsymbol{x}_i$ ： $\hat{y}_i^2=F_2(\boldsymbol{x}_i)$ 。

这时，数据集 $D$ 中样本 $\boldsymbol{x}_i$ 的残差为： ${\varepsilon}_i^3=y_i-\hat{y}_i^2$ ，形成数据集 $D_3=\{\boldsymbol{x}_i,{\varepsilon}_i^3\}_{i=1}^m$ ，在 $D_3$ 上使用CART树学习得到 $h_3(\boldsymbol{x})$ 。

如此类推，得到递推公式
$\begin{align} F_{k+1}(\boldsymbol{x})=F_k(\boldsymbol{x})+h_{k+1}(\boldsymbol{x}) \tag{8.31} \end{align}$
由此得到集成公式
$\begin{align} F_T(\boldsymbol{x})=F_0(\boldsymbol{x})+\sum_{i=1}^Th_i(\boldsymbol{x}) \tag{8.32} \end{align}$

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：8.3 AdaBoost算法的详细推导
下一篇：8.5再谈投票法（硬投票，软投票）

猜你喜欢

writing
套接字编程简介
reactjs官方demo
限流算法
C++ 调用Python脚本
华为云MVP熊保松谈物联网开发:华为云IoT是首选，小熊派是神器
C/C++每日一练(20230316)
【Tensorflow+Keras】keras实现条件生成对抗网络DCGAN--以Minis和fashion_mnist数据集为例
Windows环境下在Oracle VM VirtualBOX下克隆虚拟机镜像（克隆和导入）
Redis系列五 | 主从复制和哨兵模式
介绍一个国外的分类网站Egouz
git工具的日常操作使用
属性与字段的区别
一个计算数字数组概览的算法2
Python学习笔记（二）
Ddm invoke inputs is null
SQL语句测试
m基于PSO粒子群优化的第四方物流的作业整合算法matlab仿真,对比有代理人和无代理人两种模式下最低运输费用、代理人转换费用、运输方式转化费用和时间惩罚费用
Python: Pycharm简单介绍

相关主题

[机器学习] 集成学习
机器学习-线性回归
【机器学习】：入门
机器学习之逻辑回归
什么是机器学习
机器学习_knn算法_2
机器学习-逻辑回归
Python 7步机器学习
机器学习之数学基础
机器学习之K-means算法
Python机器学习算法
机器学习值KNN

zl程序教程

当前栏目

（《机器学习》完整版系列）第8章集成学习——8.4 GBDT算法（逐次估值逼近）

GBDT算法

相关文章

当前栏目

（《机器学习》完整版系列）第8章 集成学习——8.4 GBDT算法（逐次估值逼近）

GBDT算法

相关文章

（《机器学习》完整版系列）第8章集成学习——8.4 GBDT算法（逐次估值逼近）