IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据
数据 分析 模型 分类 IBM spss 决策树 空气
2023-06-13 09:15:40 时间
全文链接:http://tecdat.cn/?p=30752
原文出处:拓端数据部落公众号
如何通过方法有效的分析海量数据,并从其中找到有利的资讯已经成为一种趋势。而决策树算法是目前在进行数据分析时很常用的方法。本文将使用IBM SPSS Modeler进行实践,介绍决策树在空气污染预测领域的实践案例。
分类预测模型的构建流程,具体步骤如下:
(1)数据处理 :审核数据,过滤掉含有缺失值的数据记录。
(2)划分数据集,训练集70%,测试集30% 。
(3)构建模型时的参数设置 。
(4)构建模型:构建C5.0模型。
(5)结果评估,用测试集数据运行得到的运行结果,对模型采用命中率评估两个模型的预测效果。
加入表节点
读取数据
添加“抽样”节点
随机抽取70%的样本作为训练集
“C5.0”节点
生成的决策树模型,并对测试数据进行预测
得到测试数据的分类结果的准确度
预测分类结果
有88.1%的测试样本的预测值和实际值相符。
并且得到如下的决策树模型:
其中变量的重要性如下图所示:
从结果可以看到,首要污染物类型与AQI、NO2还有O3等变量有关。其中AQI对首要污染物类型的结果具有最重要的影响。
C5.0是在C4.5的基础上发展起来的。C5.0 算法是用信息增益(根节点的熵减去该拆分的熵)来度量拆分纯度的。第一次拆分某一字段,划分出相对应的样本子集。然后继续拆分这些样本子集,一般情况下使用的是另一字段进行拆分,一直循环这样一个过程,直到满足拆分终止条件。最后,若生成的树出现过度拟合的状况,则要修剪那些缺乏价值的样本子集。
相关文章
- PYTHON用时变马尔可夫区制转换(MARKOV REGIME SWITCHING)自回归模型分析经济时间序列|附代码数据
- R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据|附代码数据
- 人才盘点中的数据相关性分析
- R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据
- R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标|附代码数据
- 【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享|附代码数据
- 【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据|附代码数据
- R语言中的时间序列分析模型:ARIMA-ARCH / GARCH模型分析股票价格|附代码数据
- SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据
- R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据
- 数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据|附代码数据
- 【Android 内存优化】Java 内存模型 ( Java 虚拟机内存模型 | 线程私有区 | 共享数据区 | 内存回收算法 | 引用计数 | 可达性分析 )
- 【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据|附代码数据
- 高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据|附代码数据
- R语言股票市场指数:ARMA-GARCH模型和对数收益率数据探索性分析|附代码数据
- Linux 双机同步:无线同步数据的快捷方式(linux双机同步)
- SQL Server数据列计算与可能性分析(sqlserver计算列)
- 把握信息千钧一发:SQL Server 数据信息熵分析(sqlserver信息熵)