zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

GEO数据挖掘2(分组+探针注释的获取)

2023-03-07 09:46:45 时间
  • 分组:

看pd数据的表格 查看哪里可以看到分组依据

某一列包含了单独分组信息,(一般只包含1~2个单词),直接提取

image.png
Group = pd$`disease state:ch1` 

在网页上or自己数有几个分组,每个分组对应几个样本

Group = c(rep("RA",times=13),
            rep("control",times=9))
Group = rep(c("RA","control"),times = c(13,9))

某一列的信息中可以提取到分组信息

image.png
Group=ifelse(str_detect(pd$source_name_ch1,"control"),
               "control",
               "RA") 

把分组的数据类型变成因子型数据,因子型数据可以理解为有高低顺序的分类变量

Group = factor(Group,levels = c("control","RA")) #level是水平,要把control组放在第一个位置
  • 获取探针注释: 啥是探针注释?——是探针id和基因名(symbol)的对应关系 获取途径: 1.bioconductor的注释包: http://www.bio-info-trainee.com/1399.html 在该网页找到基因平台号对应的R包 control + F 网页搜索GPL号,找到探针对应的R包
image.png
if(!require(hgu133plus2.db))BiocManager::install("hgu133plus2.db") #安装并加载R包,R包完整的名字应该是搜索到的名字+.db
library(hgu133plus2.db)
ls("package:hgu133plus2.db") #查看该R包里所有的数据and函数
ids <- toTable(hgu133plus2SYMBOL)
head(ids)

2.从GPL网站提取探针注释

在该GPL号码的网页,可以下载对应的探针注释信息的表格,下载后保存于工作目录中

下载按钮

取出探针id和对应symbol的两列(数据框取子集)

 b = read.delim("GPL570-55999.txt",

                 check.names = F,

                 comment.char = "#")

  colnames(b) #查看下载的表格的各个列名,并复制相应的列名用于取子集

  ids2 = b[,c("ID","Gene Symbol")]

  colnames(ids2) = c("probe\_id","symbol") #更改行名

  k1 = ids2$symbol!="";table(k1) ##去掉没有对应基因名的探针id(开放性探针的id)

  k2 = !str\_detect(ids2$symbol,"///");table(k2) ##去掉对应多个基因名的探针id

  ids2 = ids2[ k1 & k2,]

并不一定所有的探针注释中开放性探针都是" ",所以要看一下如

开放性探针

这里我们可以取数据框子集查看里面的内容是什么

ids2$[410,2] 

3.探针平台的官网寻找

4.自主注释(自学一下)

#https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA

image.png