zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

生物信息数据分析教程视频——08-TCGA+GTEx数据库的数据整理

2023-02-18 16:30:25 时间

视频地址:http://mpvideo.qpic.cn/0b2efmaamaaaryalyzztmvrvak6dayvqabqa.f10002.mp4?

参考文章:

UCSC数据库下载TCGA数据需要注意的细节

我要研究的癌症在TCGA数据库没有正常样本或正常样本数少怎么办?

案例代码:

##数据下载地址
#https://xenabrowser.net/datapages/?cohort=TCGA%20TARGET%20GTEx&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443

###=====================处理标准化后的===========
library(data.table)
library(dplyr)
data = fread("./TcgaTargetGtex_RSEM_Hugo_norm_count.gz",
             data.table = F)
head(data)[,1:3]
colnames(data)[1] = "symbol"

info = fread("./TCGA_GTEX_category.txt")
sam_info = table(info$TCGA_GTEX_main_category) %>% as.data.frame()

GTEX_Lung_sample = info$sample[info$TCGA_GTEX_main_category == "GTEX Lung"]
TCGA_LUAD_sample = info$sample[info$TCGA_GTEX_main_category == "TCGA Lung Adenocarcinoma"]
# TCGA_LUSC_sample = info$sample[info$TCGA_GTEX_main_category == "TCGA Lung Squamous Cell Carcinoma"]

#这里来自TCGA数据库中的样本已经不包含癌旁组织了!
TCGA_LUAD_GTEx = data %>% dplyr::select(symbol,all_of(c(GTEX_Lung_sample,TCGA_LUAD_sample)))
TCGA_LUAD_GTEx[1:10,1:3]

rownames(TCGA_LUAD_GTEx) <- TCGA_LUAD_GTEx[,1]
TCGA_LUAD_GTEx <- arrange(TCGA_LUAD_GTEx,symbol)
TCGA_LUAD_GTEx <- TCGA_LUAD_GTEx[,-1]

save(TCGA_LUAD_GTEx,file = "TCGA_LUAD_GTEx.Rdata")