GEO数据挖掘2(分组+探针注释的获取)
2023-03-07 09:46:45 时间
- 分组:
看pd数据的表格 查看哪里可以看到分组依据
某一列包含了单独分组信息,(一般只包含1~2个单词),直接提取
Group = pd$`disease state:ch1`
在网页上or自己数有几个分组,每个分组对应几个样本
Group = c(rep("RA",times=13),
rep("control",times=9))
Group = rep(c("RA","control"),times = c(13,9))
某一列的信息中可以提取到分组信息
Group=ifelse(str_detect(pd$source_name_ch1,"control"),
"control",
"RA")
把分组的数据类型变成因子型数据,因子型数据可以理解为有高低顺序的分类变量
Group = factor(Group,levels = c("control","RA")) #level是水平,要把control组放在第一个位置
- 获取探针注释: 啥是探针注释?——是探针id和基因名(symbol)的对应关系 获取途径: 1.bioconductor的注释包: http://www.bio-info-trainee.com/1399.html 在该网页找到基因平台号对应的R包 control + F 网页搜索GPL号,找到探针对应的R包
if(!require(hgu133plus2.db))BiocManager::install("hgu133plus2.db") #安装并加载R包,R包完整的名字应该是搜索到的名字+.db
library(hgu133plus2.db)
ls("package:hgu133plus2.db") #查看该R包里所有的数据and函数
ids <- toTable(hgu133plus2SYMBOL)
head(ids)
2.从GPL网站提取探针注释
在该GPL号码的网页,可以下载对应的探针注释信息的表格,下载后保存于工作目录中
取出探针id和对应symbol的两列(数据框取子集)
b = read.delim("GPL570-55999.txt",
check.names = F,
comment.char = "#")
colnames(b) #查看下载的表格的各个列名,并复制相应的列名用于取子集
ids2 = b[,c("ID","Gene Symbol")]
colnames(ids2) = c("probe\_id","symbol") #更改行名
k1 = ids2$symbol!="";table(k1) ##去掉没有对应基因名的探针id(开放性探针的id)
k2 = !str\_detect(ids2$symbol,"///");table(k2) ##去掉对应多个基因名的探针id
ids2 = ids2[ k1 & k2,]
并不一定所有的探针注释中开放性探针都是" ",所以要看一下如
这里我们可以取数据框子集查看里面的内容是什么
ids2$[410,2]
3.探针平台的官网寻找
4.自主注释(自学一下)
#https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA
相关文章
- Undermoon - 基于 Redis Cluster Protocol 的自管理 Redis 集群系统
- Rust 写的 Undermoon Redis 集群-Chunk
- 前端程序员必须知道的 Web 漏洞,快来看看
- 阿里UC播放技术负责人徐慧书:音视频秒播技术优化
- 一文搞懂CPU如何控制I/O设备
- Hbase连接与数据处理
- Hive和Hbase集成及互相操作
- TiDB 中标杭州银行核心系统数据库项目
- 跟着NC学宏基因分析流程-冠状病毒与人类微生物组之间相互作用
- GEO数据挖掘——快速将探针ID转化为Gene Symol
- GreenPlum数据库日常维护
- 漫画大数据:为啥我把 HDFS 文件权限都改成 777 了还是删不掉?
- 大数据技术周报(2022年11月第一期)
- SQL查询优化
- MySQL主从复制
- 五个原则下的数据质量建设之道
- 数据虚拟视图定位与智能化实现
- 如何快速搭建常用的数据指标体系
- 如何构建企业级用户画像
- PGG.MHC--人类主要组织相容性复合体基因数据库和分析平台