您现在的位置是：首页 > 大数据

当前栏目

IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据

数据分析模型分类 IBM spss 决策树空气

2023-06-13 09:15:40 时间

全文链接：http://tecdat.cn/?p=30752

原文出处：拓端数据部落公众号

如何通过方法有效的分析海量数据，并从其中找到有利的资讯已经成为一种趋势。而决策树算法是目前在进行数据分析时很常用的方法。本文将使用IBM SPSS Modeler进行实践，介绍决策树在空气污染预测领域的实践案例。

分类预测模型的构建流程，具体步骤如下：

（1）数据处理：审核数据，过滤掉含有缺失值的数据记录。

（2）划分数据集，训练集70%，测试集30% 。

（3）构建模型时的参数设置。

（4）构建模型：构建C5.0模型。

（5）结果评估，用测试集数据运行得到的运行结果，对模型采用命中率评估两个模型的预测效果。

加入表节点

读取数据

添加“抽样”节点

随机抽取70%的样本作为训练集

“C5.0”节点

生成的决策树模型，并对测试数据进行预测

得到测试数据的分类结果的准确度

预测分类结果

有88.1%的测试样本的预测值和实际值相符。

并且得到如下的决策树模型：

其中变量的重要性如下图所示：

从结果可以看到，首要污染物类型与AQI、NO2还有O3等变量有关。其中AQI对首要污染物类型的结果具有最重要的影响。

C5.0是在C4.5的基础上发展起来的。C5.0 算法是用信息增益（根节点的熵减去该拆分的熵）来度量拆分纯度的。第一次拆分某一字段，划分出相对应的样本子集。然后继续拆分这些样本子集，一般情况下使用的是另一字段进行拆分，一直循环这样一个过程，直到满足拆分终止条件。最后，若生成的树出现过度拟合的状况，则要修剪那些缺乏价值的样本子集。

猜你喜欢

Jqueryeasyui下loaing效果示例代码
元件Oracle OM AR元件探究新的组件使用可能性（oracle om ar）
【原创】抖音关键词搜索
Spring 在xml配置里配置事务详解编程语言
什么是复杂计算？
SQL开发知识：MySql中JOIN的用法示例详解
SSM框架中Dao层，Mapper层，controller层，service层，model层，entity层都有什么作用「建议收藏」
【Android 应用开发】 Android 相关代码规范更新中 ...
Windows11安装 Python
消费类存储产品之后，个人云存储终端或许会爆发
MySQL 日期格式转换简明指南（mysql日期转换）
MySQL数据库安全配置介绍
MySQL实现时间随机函数的简单方法（mysql时间随机函数）

zl程序教程