您现在的位置是：首页 > 其他

当前栏目

决策树以及XGBoost如何画出树分裂图？

2023-04-18 13:08:47 时间

之前有专门研究过，在各自的文中，这里进行罗列：

文章目录

1 pydotplus安装

文档：PyDotPlus Homepage

如果要画出决策树图，一般需要该库，需要先下载： http://www.graphviz.org/download/

然后记住下载的路径，

pip install pydotplus

就可以按下面使用了：

import os
os.environ["PATH"] += os.pathsep + 'C:\Desktop\Graphviz\bin\'
import pydotplus

2 XGBoost画出分裂图

R+python︱XGBoost极端梯度上升以及forecastxgb（预测）+xgboost（回归）双案例解读

如果y是分类变量，可以直接画出节点图：

from matplotlib import pyplot
from xgboost import plot_tree
plot_tree(gbm, num_trees=0, rankdir='LR')
pyplot.show()

可以直接通过plot_tree画出节点图，但是plot_tree很丑，很模糊！

一种解决方案，参考https://github.com/dmlc/xgboost/issues/1725：

xgb.plot_tree(bst, num_trees=2)
fig = matplotlib.pyplot.gcf()
fig.set_size_inches(150, 100)
fig.savefig('tree.png')

于是乎，就需要来一张清晰一些的图片还有一种画法如下：

xgb.to_graphviz(gbm, num_trees=80, rankdir='LR')

来观察一下图型：

其中分支代表，category<5，两条路，代表条件成立,yes;条件不成立，no

每个节点都带有节点名，但是圆圈的大小，有人说是样本量越大，圆圈越大，也有可能是根据节点名称的多少来划定。

如何把图形输出出来：from graphviz import Digraph（参考：如何画XGBoost里面的决策树(decision tree)）

参数界面：https://xgboost.readthedocs.io/en/latest/python/python_api.html

3 决策树画出分裂图

决策树之ID3、C4.5、C5.0等五大算法及python实现

from sklearn.datasets import load_iris
from sklearn import tree
import sys
import os       
from IPython.display import Image as Images
import pydotplus 
from PIL import Image, ImageDraw, ImageFont
from io import BytesIO
import numpy as np

import os
os.environ["PATH"] += os.pathsep + 'C:\Desktop\Graphviz\bin\'

iris = load_iris()
clf = tree.DecisionTreeClassifier()
clf = clf.fit(iris.data, iris.target)

dot_data = tree.export_graphviz(clf, out_file=None, 
                         feature_names=iris.feature_names,  
                         class_names=iris.target_names,  
                         filled=True, rounded=True,  
                         special_characters=True)  
graph = pydotplus.graph_from_dot_data(dot_data)  

Images(graph.create_png())

在ipython的notebook生成的图如下：

其中解析一下这张图：

通过剪枝，把很多不必要的枝叶进行删减，保留有效节点；根据gini系数来判定节点，划分最优属性，gini越大，分割贡献越大，越容易成为高层节点。

颜色信息，这边

virginica——紫色/2；
versicolor——绿色/1；
setosa——橙色/0。 gini系数的大小，代表颜色的深浅，gini越大，颜色越浅。

samples代表这个节点的样本数量，value = [0,2,1]代表三种种类的样本数量分别是多少。

一般来说，紫色越多的分支，分类效力越高。

如果要保存图片，可以使用下面的语句：

Image.open(BytesIO(graph.create_png())).save('roi.png')

如何选择最优路径的一些准则，笔者自己整理，勿怪：

紫色扎堆、链路较短、而且完整链路上只有紫色会更好；
链路最低端最好是gini = 0

4 高度可视化：dtree_viz

参考：非常fancy的可视化决策树dtree_viz 用dtreeviz实现决策树可视化

4.1 案例

import dtreeviz
import pandas as pd
import numpy as np
from sklearn.datasets import *
from sklearn import tree

iris = load_iris()
df_iris = pd.DataFrame(iris['data'],columns = iris['feature_names'])
df_iris['target'] = iris['target']

clf = tree.DecisionTreeClassifier()
clf.fit(iris.data,iris.target)


import os
os.environ["PATH"] += os.pathsep + 'C:\Graphviz\bin\'
import pydotplus 

from dtreeviz.trees import dtreeviz
viz = dtreeviz(clf,
               iris['data'],
               iris['target'],
               target_name='',
               feature_names=np.array(iris['feature_names']),
               class_names={0:'setosa',1:'versicolor',2:'virginica'},scale=2)
              
viz

其中要想跑成功，这两句必不可少：

os.environ["PATH"] += os.pathsep + 'C:\Graphviz\bin\'
import pydotplus

4.2 单样本分析

viz = dtreeviz(clf, 
               x_data=X_train,
               y_data=y_train,
               target_name='class',
               feature_names=iris.feature_names, 
               class_names=list(iris.target_names),
               title="Decision Tree - Iris data set",
               #orientation="LR", 
               X=X_test[0])  
viz

这张图与前一张非常相似，然而，橙色突出清楚地显示了样本所遵循的路径。此外，我们可以在每个直方图上看到橙色三角形。它表示给定特征的观察值。最后，我们看到了这个样本的所有特征的值，用于决策的特征用橙色突出显示。在这种情况下，只有两个特征被用来预测观察属于花色类。

提示：我们还可以通过设置orientation=“LR”从上到下再从左到右更改绘图的方向。在本文中我们不展示它，因为对于屏幕较窄的设备，图表的缩放效果不会很好。

最后，我们可以用通俗易懂的英语打印这个观察预测所用的决定。为此运行以下命令

print(explain_prediction_path(clf, X_test[0], 
                              feature_names=iris.feature_names, 
                              explanation_type="plain_english"))

# 2.45 <= petal length (cm)  < 4.75 
# petal width (cm) < 1.65

这样我们就可以清楚地看到这个观察所满足的条件。

猜你喜欢

AI文本翻译系统质量提升44%，利用超500亿参数翻译200种语言
Zigbee与Wi-Fi：哪一个更适合智能家居？
银行业中的对话式人工智能——企业常犯的三个错误
CMS：听我的，生产环境上要这样配置JVM参数
如何提升服务效率？瑞云服务云用技术赋能工业机器人行业
我国5G发展不断提速，但成熟仍面临四大挑战！
5G +标志着亚洲行业的下一个大转变
物联网如何采用人工智能的潜力
Kafka中的这只“千里眼”，你需要知道！！！
F5 One-WAF，助力应对混合多云环境的安全挑战
自动驾驶汽车能向行人表明其意图吗？
云办公成新风潮，华为云助力打造全新文档云工具
腾讯已经秒杀三大运营商，放水养鱼或应适可而止
美持续推动人工智能作战运用
私有云对数据存储环境的好处
如何全面客观评估5G网络的好坏？这才是正确姿势
三分钟回顾！2021年5月5G行业发展动态速览
云计算：改善医疗保健行业背后的技术
达摩院创新网络轻量化方法，助力小蛮驴无人车以1/3算力实现工控机级智能
2021年5月5G行业发展动态速览

zl程序教程

当前栏目

决策树以及XGBoost如何画出树分裂图？

文章目录

1 pydotplus安装

2 XGBoost画出分裂图

3 决策树画出分裂图

4 高度可视化：dtree_viz

4.1 案例

4.2 单样本分析

相关文章

当前栏目

决策树以及XGBoost如何画出 树分裂图？

文章目录

1 pydotplus安装

2 XGBoost画出分裂图

3 决策树画出分裂图

4 高度可视化：dtree_viz

4.1 案例

4.2 单样本分析

相关文章

决策树以及XGBoost如何画出树分裂图？