您现在的位置是：首页 > 硬件

当前栏目

R语言机器学习之Task对象可视化（mlr3包系列）

机器对象学习语言系列可视化 Task mlr3

2023-06-13 09:11:18 时间

Task存储着我们机器学习的数据集，因此我们有必要在分析前对其进行可视化分析，从而获取对数据的直观认识。

library(mlr3)
library(mlr3viz)
task = tsk("pima") # 使用内置的印第安人Pima数据集来创建task
task$head() #查看一下数据集

这个数据集搜集的是印第安人的健康信息，包括糖尿病（diabetes）和血压的信息（pressure）。对于糖尿病这一列，pos代表阳性（positive），neg代表阴性（negative）。

task$nrow # 查看样本个数
#[1] 768
task$target_names # 查看目标变量
#[1] "diabetes"
task$feature_names # 查看特征变量
#[1] "age"      "glucose"  "insulin"  "mass"     "pedigree" "pregnant"
#[7] "pressure" "triceps"
task$select(head(task$feature_names, 3)) # 选取前三列特征变量（features）
autoplot(task) # 绘图，这里只会针对目标变量来绘图

autoplot(task, type = "pairs") # 绘制配对的关联图

在上图中，红色代表的是糖尿病组，蓝色代表的是非糖尿病组。从图中，我们不难发现，糖尿病组（pos）的年龄（age），血糖含量（glucose）和胰岛素含量（insulin）普遍高于非糖尿病组（neg）。同时血糖和胰岛素含量之间有很强的相关关系（Cor=0.581）。

autoplot(task, type = "duo") # 绘制duo图

上面这幅图很好地展现出糖尿病和非糖尿病人群中三个特征变量的差异，直观简洁！

米老鼠用了三期内容和大家详细讲解了Task对象的创建，操作和可视化，希望能给大家带来帮助！

猜你喜欢

[javaSE] 标识符大小写详解编程语言
[javaSE] 数组（获取最值）详解编程语言
研究人员绘制另外180个大脑皮层区域
java二维数组
mysql自增ID起始值修改方法
现象使用Redis锁防止商品超卖现象的新方法（redis锁处理商品超卖）
kong网关架构_kong网关性能
js复制到剪切板的实例方法
使用Linux SCP命令拷贝文件夹（linuxscp拷贝文件夹）
Git 中的那些可怕的事
Python列表(List)操作方法详解
Oracle技术依赖POMxml的实现（oracle依赖 pom）
聊聊 MySQL 网络缓冲区、net_buffer_length、max_allowed_packet 那些事
妙用MySQL：两行互换的巧妙技巧（mysql两行互换）
Shell关联数组
Linux网络接口关闭指南（linux关闭接口）
网页截屏怎么截长图？Mac有没有办法截长图？
PD18虚拟机v18.1.1永久_证书
jenkins拉取gitlab代码_查看git仓库地址
从Oracle中挖掘洞见坚实的With表（oracle with表）

zl程序教程

当前栏目

R语言机器学习之Task对象可视化（mlr3包系列）

相关文章