您现在的位置是：首页 > 其他

当前栏目

最优子集回归算法详解

算法

2023-04-18 16:55:43 时间

01 模型简介

最优子集回归是多元线性回归方程的自变量选择的一类方法。从全部自变量所有可能的自变量组合的子集回归方程中挑选最优者。如m个自变量会拟合2m-1个子集回归方程,然后用回归方程的统计量作准则(如交叉验证误差、Cp、BIC、调整R2等指标)从中挑选。

采用的R包是leaps，函数是regsubsets()。

02 加载数据

加载包和读取数据

library(glmnet)

load(file="Lineartest")

data <- Lineartest

03 数据相关性可视化表达

library(corrplot)

data.cor <- cor(data)

corrplot(data.cor, method = "ellipse") #是否提示多重共线性问题

运用cor()函数得到数据的相关系数矩阵，将相关系数矩阵作图，可以直观看出共线性：每个格子中椭圆面积越小，表示相关性越强。

04 采用regsubsets() 筛选

library(leaps)

sub.fit <- regsubsets(BSAAM ~ ., data = data)# 执行最优子集回归

best.summary <- summary(sub.fit)

按照模型评价标准找到评价指标

which.min(best.summary$cp)#马洛斯Cp值

which.max(best.summary$adjr2) #调整R2

which.min(best.summary$bic) #贝叶斯信息准则

执行最优子集回归后返回的是自变量组合的子集回归方程，以及每个回归方程对应的评价指标,采用which函数选取最优的回归方程。其中调整R2越大越好，马洛斯Cp越小越好。

05 变量筛选

将返回结果的调整R2作图，可以看到在模型变量个数为3的时候，调整R2最大。

plot(best.summary$adjr2, type = "l",xlab = "numbers of Features",

     ylab = "adjr2",main = "adjr2 by Feature Inclusion")

究竟是哪些变量是入选的最优变量呢？可做图观察，图横坐标为自变量，纵坐标是调整R2，且最上面的变量搭建的回归方程的调整R2是最大的，同时利用coef()可以查看最优回归方程的回归系数，结合来看变量APSLAKE、OPRC和OPSLAKE是筛选出来的变量。

plot(sub.fit, scale = "adjr2",main = "Best Subset Features")

coef(sub.fit, 3)

(Intercept)     APSLAKE      OPRC      OPSLAKE

15424.597    1712.481    1797.465    2389.838

06 多重共线性检查

将筛选的变量建模并进行共线性检查，方差膨胀系数大于5说明有严重的共线性。对这两个强相关的变量，我们分别做模型，挑选调整R2大的模型。最终我们保留f3模型。

f2 <- lm(BSAAM ~ APSLAKE + OPRC + OPSLAKE, data = data)

vif(f2)

APSLAKE     OPRC     OPSLAKE

1.011499  6.452569   6.444748

####这两个强相关的变量分别做模型，挑选R2 大的模型

f3 <- lm(BSAAM ~ APSLAKE + OPSLAKE, data = data)#调整R2:0.9002

f4 <- lm(BSAAM ~ APSLAKE + OPRC, data = data)#调整R2:0.862

猜你喜欢

老电脑福音！Edge浏览器上线性能模式：速度更快了！
大数据时代的商业智能高峰论坛成功召开
地理空间可视化为大数据注入活力
互联网金融还是大数据金融
Firefox 88加大对window.name跨站隐私滥用的斗争力度
Windows 10系统电脑，桌面快捷图标箭头如何才能去掉，按步骤操作即可
图解 | Epoll怎么实现的
Twitter发布Storm-Hadoop混合系统
Linux 之父：C++ 语言很烂不会改用其重写 Linux 内核
MongoDB升级Hadoop连接器新增Hive支持
海量数据相似度计算之simhash和海明距离
Linux下的图形库curses写贪吃蛇，酷
大数据时代的商业智能
教你学会Linux命令行下载文件的正确姿势
Windows 10 20H2/21H1新版发布：修复内存占用高、系统崩溃死机问题
迎接商业智能3.0时代
Windows 10系统电脑，想修改IP地址却不知道怎么操作，来看看详细介绍
关于Hadoop的六大误解
64 位来临：微软 Visual Studio 2022 预览版今夏发布，更多功能一览
有关Hadoop的六大误解

zl程序教程