ChIP-seq 分析:数据质控实操(5)
1. 数据
今天将继续回顾我们在上一次中研究的 Myc ChIPseq。这包括用于 MEL 和 Ch12 细胞系的 Myc ChIPseq 及其输入对照。
- 可在此处找到 MEL 细胞系中 Myc ChIPseq 的信息和文件
- 可在此处找到 Ch12 细胞系中 Myc ChIPseq 的信息和文件
- 可以在此处找到 MEL 细胞系的输入控制
- 可在此处找到 Ch12 细胞系的输入对照。
2. 质量控制
ChIPseq 有许多潜在噪声源,包括 抗体的不同效率 非特异性结合 文库复杂性 ChIP 伪影和背景。
许多这些噪声源都可以使用一些完善的方法进行评估。
2.1. 质控参考
- Encode 质量指标。
- ChIPseq 中人工制品重复的高估。
- 什么时候 QC 有用。
2.2. 合适的输入
- 在 IP 富集之前,输入样本通常由片段化的 DNA 制成。
- 允许控制样本中出现的伪影区域。
- 切勿在不考虑使用哪个输入的情况下运行 ChIPseq。
例如:当使用肿瘤样本进行 ChIPseq 时,匹配输入样本很重要。同一组织的不同条件可能共享共同的输入。
2.3. 质量指标
ChIPQC 包将一些指标包装到 Bioconductor 包中,并注意在适当的条件下测量这些指标。
要运行单个样本,我们可以使用 ChIPQCsample() 函数、相关的未过滤 BAM 文件,我们建议提供黑名单作为 BED 文件或 GRanges 和基因组名称。
您可以在 Anshul Kundaje 的网站或直接从 Encode 网站找到大多数基因组的黑名单
QCresult <- ChIPQCsample(reads = "/pathTo/myChIPreads.bam", genome = "mm10", blacklist = "/pathTo/mm10_Blacklist.bed")
我们从 Encode 下载 mm10 的黑名单。然后,我们可以使用 ChIPQC 包中的 ChIPQCsample() 函数对我们的 ChIPseq 样本质量进行初步分析。
在这里,我们评估我们在之前的会话中使用 Rsubread 对齐的样本的质量。返回的对象是 ChIPQCsample 对象。
library(ChIPQC)
toBlkList <- "~/Downloads/ENCFF547MET.bed.gz"
chipqc_MycMel_rep1 <- ChIPQCsample("SR_Myc_Mel_rep1.bam", annotation = "mm10", blacklist = toBlkList,
chromosomes = paste0("chr", 1:10))
class(chipqc_MycMel_rep1)
我们可以显示我们的 ChIPQCsample 对象,它将显示我们的 ChIPseq 质量的基本摘要。
chipqc_MycMel_rep1
2.4. 多样本QC
最好对照您的输入对照和我们正在使用的其他 Myc 样本(如果您没有自己的数据,甚至是外部数据)检查 ChIPseq 质量。
这将使我们能够识别样本与对照中 ChIPseq 富集的预期模式,并通过这些指标发现任何异常样本。
我们可以使用 lapply 对所有感兴趣的样本运行 ChIPQCsample()。
bamsToQC <- c("Sorted_Myc_Ch12_1.bam", "Sorted_Myc_Ch12_2.bam", "Sorted_Myc_MEL_1.bam",
"Sorted_Myc_MEL_2.bam", "Sorted_Input_MEL.bam", "Sorted_Input_Ch12.bam")
myQC <- bplapply(bamsToQC, ChIPQCsample, annotation = "mm10", blacklist = toBlkList,
chromosomes = paste0("chr", 1:10))
names(myQC) <- bamsToQC
所有 ChIPQC 函数都可以与 ChIPQCsample 对象的命名列表一起使用,以将分数聚合到表和图中。
在这里,我们使用 QCmetrics() 函数来概述质量指标。
QCmetrics(myQC)
相关文章
- 疫情数据采集与分析2021.1.1
- 数量生态学冗余分析(RDA)分析植物多样性物种数据结果可视化|附代码数据
- 云计算与大数据技术应用 第四章课后答案_云计算原理与实践
- R语言JAGS贝叶斯回归模型分析博士生延期毕业完成论文时间|附代码数据
- 多个数据集的整合分析
- DNA甲基化芯片分析01: 使用methylumi和limma分析27K DNA甲基化芯片数据
- R语言股票市场指数:ARMA-GARCH模型和对数收益率数据探索性分析|附代码数据
- 【Android 应用开发】Paint 滤镜原理 之 图像结构 ( 图片文件二进制分析 | PNG文件结构 | 数据块结构 | IHDR 数据块详解 )
- R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析|附代码数据
- Hadoop分布式文件系统–HDFS结构分析详解大数据
- YARN源码分析(二)—–ResourceManager中的NM节点管理详解大数据
- 程序员必须要知道的Hadoop的12个事实详解大数据
- Redis深度分析:如何精准满足数据需求(redis分析)
- MySQL排序相同值:如何对具有相同值的数据进行排序?(mysql排序相同值)
- Oracle RAC方案:提高数据可用性,提升性能(oraclerac方案)
- Oracle 数据同步:实现高效数据共享的关键步骤(oracle同步数据)
- 台设计使用SQLServer前端设计实现数据可视化(sqlserver编辑前)
- MySQL表数据容量大小分析及优化(mysql 表数据 大小)
- 【mssql数据查询及分析技术实践】(mssql查分析)
- 从DB2迁移数据到Oracle可行性分析和实现步骤(db2转移oracle)
- AS直连Mysql实现数据快速传输(AS直连Mysql)
- 数据同步实现多个站点之间Redis数据同步的简单方法(多个站点Redis)
- 从Oracle分析不同类型数据的分组方式(oracle不同类型分组)
- Redis使用列值快速查询数据(redis通过列值查数据)
- 技术利用Oracle三大关联技术做数据关联分析(oracle三大关联)
- Oracle SQL环比分析发掘数据背后的规律(oracle_sql环比)
- 热力图上Redis缓存热点数据分析(redis缓存热点数据)