IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据|附代码数据
2023-02-25 18:21:29 时间
全文链接:http://tecdat.cn/?p=30752
最近我们被客户要求撰写关于决策树的研究报告,包括一些图形和统计输出。
如何通过方法有效的分析海量数据,并从其中找到有利的资讯已经成为一种趋势
而决策树算法是目前在进行数据分析时很常用的方法。本文将使用IBM SPSS Modeler进行实践,介绍决策树在空气污染预测领域的实践案例。
分类预测模型的构建流程,具体步骤如下:
(1)数据处理 :审核数据,过滤掉含有缺失值的数据记录。
(2)划分数据集,训练集70%,测试集30% 。
(3)构建模型时的参数设置 。
(4)构建模型:构建C5.0模型。
(5)结果评估,用测试集数据运行得到的运行结果,对模型采用命中率评估两个模型的预测效果。
加入表节点
读取数据
添加“抽样”节点
随机抽取70%的样本作为训练集
“C5.0”节点
生成的决策树模型,并对测试数据进行预测
得到测试数据的分类结果的准确度
预测分类结果
有88.1%的测试样本的预测值和实际值相符。
并且得到如下的决策树模型:
点击标题查阅往期内容
01
02
03
04
其中变量的重要性如下图所示:
从结果可以看到,首要污染物类型与AQI、NO2还有O3等变量有关。其中AQI对首要污染物类型的结果具有最重要的影响。
C5.0是在C4.5的基础上发展起来的。C5.0 算法是用信息增益(根节点的熵减去该拆分的熵)来度量拆分纯度的。第一次拆分某一字段,划分出相对应的样本子集。然后继续拆分这些样本子集,一般情况下使用的是另一字段进行拆分,一直循环这样一个过程,直到满足拆分终止条件。最后,若生成的树出现过度拟合的状况,则要修剪那些缺乏价值的样本子集。
本文选自《IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据》。
相关文章
- 学生数据库管理系统
- SpringDataJpa 用MySQL语句怎么分页,spring全家桶SpringDataJpa 用MySQL语句怎么分页
- Docker创建MySQL容器模板命令
- Elasticsearch对应MySQL的对应关系
- 使用SpringDataJpa保存(save)报错误:SQL Error: 1062, SQLState: 23000 控制台会报:Duplicate entry ‘数‘ for key ‘PRIMA
- Navicat Premium 连接sqlserver数据库时提示安装Client失败,解决方案
- Mysql查询当前用户所有数据库语句(SHOW DATABASES)
- MySQL语句-查看当前数据库有哪些表(SHOW TABLES)
- MySQL5.0版本以上新增的 information_schema 数据库是什么?
- MariaDB数据库备份之逻辑备份
- MariaDB数据库创建用户
- MariaDB数据库给用户授权
- MariaDB数据库刷新权限表命令
- MariaDB数据库删除用户命令
- PhpStudy 2016搭建-sqli-libs靶场
- MySQL手动注入步骤
- Pikachu靶场-SQL注入-数字型注入(post)过关步骤
- Pikachu靶场-SQL注入-字符型注入(get)过关步骤
- 利用SQL注入漏洞实现MySQL数据库读写文件
- Kali-工具-sqlmap常见用法