您现在的位置是：首页 > 其他

当前栏目

【已完结，后续更新分析流程】如何批量下载TCGA公开的转录组、miRNA转录组，蛋白表达谱、SNV、甲基化以及CNV数据

流程批量下载数据如何分析更新以及

2023-06-13 09:15:23 时间

下面这个流程是下载这个网站公开数据的方法，使用到的工具是TCGAbiolinks(https://github.com/BioinformaticsFMRP/TCGAbiolinks)，

主要是两种RNA表达谱数据和基因突变maf数据

下载的所有文件获取方法

站长已经把maf和表达谱文件已经上传到百度云，加入小站vip群里的小伙伴已经获得；

下面是下载所用到的方法，也可以自己下载，注意下载所有文件需要至少50G空间。

创建R 4.0环境

conda create -n R4 -c conda-forge -y r-essentials r-base r-devtools
conda activate R4
R

进入R语言环境

下载R包

install.packages("BiocManager")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinksGUI.data")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinks") ## 致敬开发者

批量下载代码

library(TCGAbiolinks)
projects <- getGDCprojects()
projects <- projects$project_id
TCGA_dowload<-function(x,dirpath){
#转录组数据
query.exp <-GDCquery(
  project = x, 
  data.category = "Transcriptome Profiling",
  data.type = "Gene Expression Quantification", 
  workflow.type = "STAR - Counts""
)
GDCdownload(query.exp)
Exp <- GDCprepare(query = query.exp)
#SNV数据
query.maf <- GDCquery(
  project = x, 
  data.category = "Simple Nucleotide Variation", 
  access = "open"
)
Maf <- GDCprepare(query = query.maf)
saveRDS(Maf,file = paste0(dirpath,x,"_maf.rds"))
#甲基化数据
for (i in c("450","27")) {
    query_met.hg38 <- GDCquery(
      project = x, 
      data.category = "DNA Methylation",
      platform = paste0("Illumina Human Methylation ",i),
      data.type = "Methylation Beta Value"
    )
    Met <- GDCprepare(query = query_met.hg38)
    saveRDS(Met,file = paste0(dirpath,x,"_met_Ill",i,".rds"))
  }
#miRNA数据
query.mirna <- GDCquery(
    project = x, 
    experimental.strategy = "miRNA-Seq",
    data.category = "Transcriptome Profiling", 
    data.type = "miRNA Expression Quantification"
  )
GDCdownload(query.mirna)
Mirna <- GDCprepare(query = query.mirna)
saveRDS(Mirna,file = paste0(dirpath,x,"_miRNA.rds"))
#蛋白表达量
query.rppa <- GDCquery(
    project = x, 
    data.category = "Proteome Profiling",
    data.type = "Protein Expression Quantification"
  )
GDCdownload(query.rppa) 
Proteins <- GDCprepare(query.rppa)
saveRDS(Proteins,file = paste0(dirpath,x,"_protein.rds"))
#CNV数据
CNV.type<-c("Allele-specific Copy Number Segment", 
            "Gene Level Copy Number",
            "Masked Copy Number Segment")
for (ii in CNV.type) {
    query.CNV <- GDCquery(
      project = project,
      data.category = "Copy Number Variation",
      data.type = ii
    )
    GDCdownload(query.CNV)
    CNV <- GDCprepare(query = query.CNV)
    saveRDS(CNV,file = paste0(dirpath,project,"_CNV_",
                              stringr::str_replace_all(i," ","_"),
                              ".rds"))
  }
}

## 批量下载数据
for (j in projects) {
  print(j)
  try(TCGA_dowload(j,dirpath = "./TCGAbiolinks_data/"),silent = T)
}

下载数据说明

文件使用

下载文件保存格式是rds，使用下面方法可以加载

TCGA_ACC_Exp<-readRDA("TCGA-ACC_exp.rds") ##注意文件路径要正确

表达谱数据表达谱数据包括:

TCGA_ACC_Exp_unstrand<-SummarizedExperiment::assay(TCGA_ACC_Exp,1)

临床信息表达谱中整合了临床信息可以用下面方法提取

TCGA_ACC_clinData<-SummarizedExperiment::colData(TCGA_ACC_Exp)

关于maf 下载的SNV_maf文件没有临床信息需要自己整理一下才能使用maftools

One More Thing......

猜你喜欢

深入探索Linux启动信息（查看linux启动信息）
APT防御_简述对安全的理解
Ensuring Data Protection: A Guide to Oracle Guard for Businesses（oracleguard）
Burp Suite 抓Android手机应用包教程[通俗易懂]
【RecyclerView】八、RecyclerView.ItemDecoration 条目装饰 ( onDraw 和 onDrawOver 绘制要点 )
步步为营，轻松安装ECS上的Oracle（ecs安装oracle）
基于SimpleBlobDetector识别骰子点数
什么是核潜艇？与一般潜艇有啥不同？
人工智能的预训练基础模型的分类
MySQL实现文本截取：一个实例（mysql 截取字符串）
确保Redis锁安全的方法（怎么保证redis锁）
Go 编程 | 连载 24 - 闭包 Closure
AlphaCode论文和背后原理快速解读，也许程序员短期内还不会被取代...
MySQL实现自动生成随机字符串（mysql生成随机字符串）
Linux待机模式下的唤醒（linux待机唤醒）
Linux：探索系统架构的位数（linux看系统多少位）
泄露了5.33亿Facebook用户的个人资料后，Meta被罚款2.75亿美元
Linux挂载磁盘：快速简便的操作指南（linux挂载磁阵）
如何在MozillaGecko用Javascript加载XSL

zl程序教程