您现在的位置是：首页 > 数据库

当前栏目

IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据|附代码数据

数据

2023-02-25 18:21:29 时间

全文链接：http://tecdat.cn/?p=30752

最近我们被客户要求撰写关于决策树的研究报告，包括一些图形和统计输出。

如何通过方法有效的分析海量数据，并从其中找到有利的资讯已经成为一种趋势

而决策树算法是目前在进行数据分析时很常用的方法。本文将使用IBM SPSS Modeler进行实践，介绍决策树在空气污染预测领域的实践案例。

分类预测模型的构建流程，具体步骤如下：

（1）数据处理：审核数据，过滤掉含有缺失值的数据记录。

（2）划分数据集，训练集70%，测试集30% 。

（3）构建模型时的参数设置。

（4）构建模型：构建C5.0模型。

（5）结果评估，用测试集数据运行得到的运行结果，对模型采用命中率评估两个模型的预测效果。

加入表节点

读取数据

添加“抽样”节点

随机抽取70%的样本作为训练集

“C5.0”节点

生成的决策树模型，并对测试数据进行预测

得到测试数据的分类结果的准确度

预测分类结果

有88.1%的测试样本的预测值和实际值相符。

并且得到如下的决策树模型：

点击标题查阅往期内容

数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

其中变量的重要性如下图所示：

从结果可以看到，首要污染物类型与AQI、NO2还有O3等变量有关。其中AQI对首要污染物类型的结果具有最重要的影响。

C5.0是在C4.5的基础上发展起来的。C5.0 算法是用信息增益（根节点的熵减去该拆分的熵）来度量拆分纯度的。第一次拆分某一字段，划分出相对应的样本子集。然后继续拆分这些样本子集，一般情况下使用的是另一字段进行拆分，一直循环这样一个过程，直到满足拆分终止条件。最后，若生成的树出现过度拟合的状况，则要修剪那些缺乏价值的样本子集。

本文选自《IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据》。

猜你喜欢

最长无重复子串
写技术博客的一些心得分享
Java 多线程（七）：线程池
Java 多线程（五）：锁（三）
Java 多线程（四）：锁（二）
Java 多线程（三）：锁（一）
Java 多线程（二）：并发编程的三大特性
线性时间非比较类排序
Java 多线程（一）：基础
合并k个已排序的链表
HDFS 高可用分布式环境搭建
合并两个有序数组
连续子数组的最大和
HDFS 分布式环境搭建
容器盛水问题
大数加法
HDFS 伪分布式环境搭建
设计LRU缓存结构
两数之和
使用单调栈来解决的一些问题

zl程序教程