R_Studio(癌症)数据连续属性离散化处理
2023-09-14 08:57:05 时间
对“癌症.csv”中的肾细胞癌组织内微血管数进行连续属性的等宽离散化处理(分为3类),并用宽值找替原来的值
癌症.csv
setwd('D:\\data') list.files() dat=read.csv(file="癌症.csv",header=TRUE) #等宽离散化 v1=ceiling(dat[,1]) #等频离散化 names(data)='f'#变量重命名 attach(dat) seq(0,length(f),length(f)/2)#等频划分为6组 v=sort(f)#按大小排序作为离散化依据 v2=rep(0,26)#定义新变量 for(i in 1:26) v2[i]=ifelse(f[i]<=v[13],1, ifelse(f[i]<=v[26],2)) detach(dat) #聚类离散化 result=kmeans(dat[,4],2) v3=result$cluster #图示结果 plot(dat[,4],v1,xlab='肾细胞癌组织内微血管数',ylab='等宽离散化') plot(dat[,4],v2,xlab='肾细胞癌组织内微血管数',ylab='等频离散化') plot(dat[,4],v3,xlab='肾细胞癌组织内微血管数',ylab='聚类离散化')
等宽离散化:将连续数据按照等宽区间标准离散化数据
setwd('D:\\data') list.files() dat=read.csv(file="癌症.csv",header=TRUE) #等宽离散化 v1=ceiling(dat[,4]) #图示结果 plot(dat[,4],v1,xlab='肾细胞癌组织内微血管数',ylab="等宽离散化")
等频离散化:将相同数量的数据放进一个区间
setwd('D:\\data') list.files() dat=read.csv(file="癌症.csv",header=TRUE) #等频离散化 names(data)='f'#变量重命名 attach(dat) seq(0,length(f),length(f)/2)#等频划分为6组 v=sort(f)#按大小排序作为离散化依据 v2=rep(0,26)#定义新变量 for(i in 1:26) v2[i]=ifelse(f[i]<=v[13],1, ifelse(f[i]<=v[26],2)) #图示结果 plot(dat[,4],v2,xlab='肾细胞癌组织内微血管数',ylab="等频离散化")
聚类离散化:一维聚类离散包括两个过程:通过聚类算法(K-Means算法)将连续属性值进行聚类,处理聚类之后的到的k个簇,得到每个簇对应的分类值(类似这个簇的标记)
setwd('D:\\data') list.files() dat=read.csv(file="癌症.csv",header=TRUE) #聚类离散化 result=kmeans(dat[,4],2) v3=result$cluster #图示结果 plot(dat[,4],v3,xlab='肾细胞癌组织内微血管数',ylab='聚类离散化')
相关文章
- ConnectionString属性「建议收藏」
- 【说站】css Flex容器属性有哪些
- 【说站】JavaScript属性描述对象的操作
- fl studio中文版多少钱,有必要购买FL Studio正版吗?
- jar中没有主清单属性啥意思啊_java命令运行jar找不到主类
- java反射之Field用法(获取对象的字段名和属性值)
- JavaScript 函数的属性和方法
- 4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取
- Java反射,通过对象获取属性及属性值
- 【Linux 内核】线程调度示例一 ④ ( pthread_attr_init 初始化线程属性对象 | 完整代码示例 )
- 【Kotlin 协程】Channel 通道 ④ ( Channel 通道的热数据流属性 | Channel 通道关闭过程 | Channel 通道关闭代码示例 )
- MySQL中fields属性的基本用法与实例解析(mysql中fields)
- ASP.NET中用healthMonitor属性用法
- RegExp对象的方法和属性
- js正则表达式之input属性($_)RegExp对象属性介绍