您现在的位置是：首页 > 其他

当前栏目

2-R语言数据结构

语言数据结构

2023-02-26 10:15:35 时间

title: "2-R语言数据结构"

output: html_document

date: "2023-02-02"

矩阵：只允许一种数据类型的二维结构

数据框：每一列只允许一种数据类型

列表：可以装各种数据类型

#重点：数据框
#1.数据框来源
# （1）用代码新建
# （2）由已有数据转换或处理得到
# （3）读取表格文件
# （4）R语言内置数据

#2.新建和读取数据框
df1 <- data.frame(gene   = paste0("gene",1:4),
                 change  = rep(c("up","down"),each = 2),
                 score   = c(5,3,-2,-4)) #每一列之间要用,隔开
df1

##    gene change score
## 1 gene1     up     5
## 2 gene2     up     3
## 3 gene3   down    -2
## 4 gene4   down    -4

df2 <- read.csv("gene.csv") #工作目录下
df2

##    gene change score
## 1 gene1     up     5
## 2 gene2     up     3
## 3 gene3   down    -2
## 4 gene4   down    -4

#3.数据框属性
#
dim(df1)

## [1] 4 3

nrow(df1) #行数

## [1] 4

ncol(df1) #列数

## [1] 3

#
rownames(df1) #行名

## [1] "1" "2" "3" "4"

colnames(df1) #列名

## [1] "gene"   "change" "score"

#4.数据框取子集
df1$score  #删掉score，按tab键试试,$后可用tab切换

## [1]  5  3 -2 -4

df1$gene #取列

## [1] "gene1" "gene2" "gene3" "gene4"

mean(df1$score)

## [1] 0.5

## 按坐标
df1[2,2] #坐行右列

## [1] "up"

df1[2,]

##    gene change score
## 2 gene2     up     3

df1[,2]

## [1] "up"   "up"   "down" "down"

class(df1[2,]) #"data.frame"

## [1] "data.frame"

class(df1[,2]) #"character"

## [1] "character"

df1[c(1,3),1:2] #取第1、3行，取1、2列

##    gene change
## 1 gene1     up
## 3 gene3   down

## 按名字
df1[,"gene"]

## [1] "gene1" "gene2" "gene3" "gene4"

df1[,c('gene','change')] #可以同时提多列（把要提出来的列写成向量），$只能提一列

##    gene change
## 1 gene1     up
## 2 gene2     up
## 3 gene3   down
## 4 gene4   down

## 按条件（逻辑值）
df1[df1$score>0,] #留TRUE

##    gene change score
## 1 gene1     up     5
## 2 gene2     up     3

#思考题，筛选score>0的基因
df1[df1$score > 0, 'gene'] #df1[df1$score > 0, 1]

## [1] "gene1" "gene2"

df1$gene[df1$score > 0]

## [1] "gene1" "gene2"

## 代码思维
#如何取数据框的最后一列？
df1[,3]

## [1]  5  3 -2 -4

df1[,ncol(df1)]

## [1]  5  3 -2 -4

#如何取数据框除了最后一列以外的其他列？
df1[,-ncol(df1)]

##    gene change
## 1 gene1     up
## 2 gene2     up
## 3 gene3   down
## 4 gene4   down

#筛选score > 0的基因
df1[df1$score > 0,1]

## [1] "gene1" "gene2"

df1$gene[df1$score > 0]

## [1] "gene1" "gene2"

#5.数据框修改

#改一个格
df1[3,3] <- 5
df1

##    gene change score
## 1 gene1     up     5
## 2 gene2     up     3
## 3 gene3   down     5
## 4 gene4   down    -4

#改一整列
df1$score <- c(12,23,50,2) #存在的列名<- == 修改
df1

##    gene change score
## 1 gene1     up    12
## 2 gene2     up    23
## 3 gene3   down    50
## 4 gene4   down     2

#？
df1$p.value <- c(0.01,0.02,0.07,0.05) #不存在的列名<- == 新增
df1

##    gene change score p.value
## 1 gene1     up    12    0.01
## 2 gene2     up    23    0.02
## 3 gene3   down    50    0.07
## 4 gene4   down     2    0.05

#改行名和列名
rownames(df1) <- c("r1","r2","r3","r4") #行列取子集结果为向量，所以修改时也得是向量
#只修改某一行/列的名
colnames(df1)[2] <- "CHANGE"

#6.两个数据框的连接
test1 <- data.frame(name = c('jimmy','nicker','Damon','Sophie'), 
                    blood_type = c("A","B","O","AB"))
test1

##     name blood_type
## 1  jimmy          A
## 2 nicker          B
## 3  Damon          O
## 4 Sophie         AB

test2 <- data.frame(name = c('Damon','jimmy','nicker','tony'),
                    group = c("group1","group1","group2","group2"),
                    vision = c(4.2,4.3,4.9,4.5))
test2

##     name  group vision
## 1  Damon group1    4.2
## 2  jimmy group1    4.3
## 3 nicker group2    4.9
## 4   tony group2    4.5

test3 <- data.frame(NAME = c('Damon','jimmy','nicker','tony'),
                    weight = c(140,145,110,138))
test3

##     NAME weight
## 1  Damon    140
## 2  jimmy    145
## 3 nicker    110
## 4   tony    138

merge(test1,test2,by="name") #by='共同一列的名字'

##     name blood_type  group vision
## 1  Damon          O group1    4.2
## 2  jimmy          A group1    4.3
## 3 nicker          B group2    4.9

merge(test1,test3,by.x = "name",by.y = "NAME")

##     name blood_type weight
## 1  Damon          O    140
## 2  jimmy          A    145
## 3 nicker          B    110

?merge

##### 矩阵和列表
m <- matrix(1:9, nrow = 3)
colnames(m) <- c("a","b","c") #加列名
m

##      a b c
## [1,] 1 4 7
## [2,] 2 5 8
## [3,] 3 6 9

#矩阵取子集，不支持$
m[2,]

## a b c 
## 2 5 8

m[,1]

## [1] 1 2 3

m[2,3]

## c 
## 8

m[2:3,1:2]

##      a b
## [1,] 2 5
## [2,] 3 6

##      a b c
## [1,] 1 4 7
## [2,] 2 5 8
## [3,] 3 6 9

t(m) #转置

##   [,1] [,2] [,3]
## a    1    2    3
## b    4    5    6
## c    7    8    9

as.data.frame(m) #转换成数据框

##   a b c
## 1 1 4 7
## 2 2 5 8
## 3 3 6 9

pheatmap::pheatmap(m)
pheatmap::pheatmap(m,cluster_cols = F,cluster_rows = F) #可以在允许范围内修改代码

#列表
l <- list(m1 = matrix(1:9, nrow = 3),
          m2 = matrix(2:9, nrow = 2))
l # m1，m2是l列表里的元素名

## $m1
##      [,1] [,2] [,3]
## [1,]    1    4    7
## [2,]    2    5    8
## [3,]    3    6    9
## 
## $m2
##      [,1] [,2] [,3] [,4]
## [1,]    2    4    6    8
## [2,]    3    5    7    9

l[[2]] #两个中括号

##      [,1] [,2] [,3] [,4]
## [1,]    2    4    6    8
## [2,]    3    5    7    9

l$m1 #名字取子集

##      [,1] [,2] [,3]
## [1,]    1    4    7
## [2,]    2    5    8
## [3,]    3    6    9

# 补充：元素的名字

scores = c(100,59,73,95,45)
names(scores) = c("jimmy","nicker","Damon","Sophie","tony") #有名字的向量,名字为向量属性
scores

##  jimmy nicker  Damon Sophie   tony 
##    100     59     73     95     45

scores["jimmy"]

## jimmy 
##   100

scores[c("jimmy","nicker")]

##  jimmy nicker 
##    100     59

names(scores)[scores>60]

## [1] "jimmy"  "Damon"  "Sophie"

# 删除 
rm(l)
rm(df1,df2)
rm(list = ls()) 
#快捷键 ctrl+l 清空控制台

![unnamed-chunk-1-1.png](https://ask8088-private-1251520898.cos.ap-guangzhou.myqcloud.com/developer-images/article/9199560/a92ta5k982.png?q-sign-algorithm=sha1&q-ak=AKID2uZ1FGBdx1pNgjE3KK4YliPpzyjLZvug&q-sign-time=1675346109;1675353309&q-key-time=1675346109;1675353309&q-header-list=&q-url-param-list=&q-signature=ef9071d2e8fd4981ad5876b3a9856683da7ce3e1)
![unnamed-chunk-1-2.png](https://ask8088-private-1251520898.cos.ap-guangzhou.myqcloud.com/developer-images/article/9199560/i2mdkaw6a1.png?q-sign-algorithm=sha1&q-ak=AKID2uZ1FGBdx1pNgjE3KK4YliPpzyjLZvug&q-sign-time=1675346115;1675353315&q-key-time=1675346115;1675353315&q-header-list=&q-url-param-list=&q-signature=3f6641254eb0d8111e919e410980e8b1ed47bd84)

代码来源于生信技能树

猜你喜欢

最长无重复子串
写技术博客的一些心得分享
Java 多线程（七）：线程池
Java 多线程（五）：锁（三）
Java 多线程（四）：锁（二）
Java 多线程（三）：锁（一）
Java 多线程（二）：并发编程的三大特性
线性时间非比较类排序
Java 多线程（一）：基础
合并k个已排序的链表
HDFS 高可用分布式环境搭建
合并两个有序数组
连续子数组的最大和
HDFS 分布式环境搭建
容器盛水问题
大数加法
HDFS 伪分布式环境搭建
设计LRU缓存结构
两数之和
使用单调栈来解决的一些问题

zl程序教程

当前栏目

2-R语言数据结构

相关文章