您现在的位置是：首页 > 数据库

当前栏目

GEO数据挖掘2（分组+探针注释的获取）

数据

2023-03-07 09:46:45 时间

分组：

看pd数据的表格查看哪里可以看到分组依据

某一列包含了单独分组信息，（一般只包含1~2个单词）,直接提取

image.png

Group = pd$`disease state:ch1`

在网页上or自己数有几个分组，每个分组对应几个样本

Group = c(rep("RA",times=13),
            rep("control",times=9))
Group = rep(c("RA","control"),times = c(13,9))

某一列的信息中可以提取到分组信息

image.png

Group=ifelse(str_detect(pd$source_name_ch1,"control"),
               "control",
               "RA")

把分组的数据类型变成因子型数据，因子型数据可以理解为有高低顺序的分类变量

Group = factor(Group,levels = c("control","RA")) #level是水平，要把control组放在第一个位置

获取探针注释：啥是探针注释？——是探针id和基因名（symbol）的对应关系获取途径： 1.bioconductor的注释包： http://www.bio-info-trainee.com/1399.html 在该网页找到基因平台号对应的R包 control + F 网页搜索GPL号，找到探针对应的R包

image.png

if(!require(hgu133plus2.db))BiocManager::install("hgu133plus2.db") #安装并加载R包，R包完整的名字应该是搜索到的名字+.db
library(hgu133plus2.db)
ls("package:hgu133plus2.db") #查看该R包里所有的数据and函数
ids <- toTable(hgu133plus2SYMBOL)
head(ids)

2.从GPL网站提取探针注释

在该GPL号码的网页，可以下载对应的探针注释信息的表格，下载后保存于工作目录中

下载按钮

取出探针id和对应symbol的两列（数据框取子集）

 b = read.delim("GPL570-55999.txt",

                 check.names = F,

                 comment.char = "#")

  colnames(b) #查看下载的表格的各个列名，并复制相应的列名用于取子集

  ids2 = b[,c("ID","Gene Symbol")]

  colnames(ids2) = c("probe\_id","symbol") #更改行名

  k1 = ids2$symbol!="";table(k1) ##去掉没有对应基因名的探针id（开放性探针的id）

  k2 = !str\_detect(ids2$symbol,"///");table(k2) ##去掉对应多个基因名的探针id

  ids2 = ids2[ k1 & k2,]

并不一定所有的探针注释中开放性探针都是" "，所以要看一下如

开放性探针

这里我们可以取数据框子集查看里面的内容是什么

ids2$[410,2]

3.探针平台的官网寻找

4.自主注释（自学一下）

#https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA

image.png

猜你喜欢

Java 静态导入
将 Apache Airflow 部署到云端
python实现有序字典
使用 AWS Batch 与 Amazon CloudWatch 规则调度并运行 Amazon RDS 作业
java日期选择
【python中级】列表表达式
【python】列表元素统计
AWS App2Container – 一款面向Java与.NET应用程序的新型容器化工具
Python 字符串方法详解
Java加密算法
如何部署使用 Amazon Chime 开发工具包构建的实时事件解决方案
Java编解码
python字符串及其方法
AWS Solutions Constructs – 适用于 AWS CDK 的架构模式库
java 面试题
使用 Lambda Powertools 简化无服务器最佳实践
使用 AWS Cloud Development Kit 通过 Open Policy Agent 实现策略即代码
Python高效编程技巧
Java集合类
Java 集合类

zl程序教程

当前栏目

GEO数据挖掘2（分组+探针注释的获取）

相关文章