测序数据GC含量异常该如何处理?
我们在对测序数据进行fastqc质控时,会比较关注样本的GC含量,较好的数据如下图所示
Normal data
事实上,我们的测序结果会受到建库方式、样本质量等很多因素的影响,其GC含量也会千差万别。下图是真实测序结果的fastqc报告,很明显其GC含量有多个峰值,相当的“红”。我们在进行后续分析之前,首先要对其进行一定处理,去掉杂峰的影响。
Abnormal data
为了便于测试,我选取了一个样本的双端测序结果进行演示,如果想自己尝试可翻到文末数据获取部分下载数据。
rawdata_qc
下图是双端测序结果的fastqc质控报告中的GC含量部分,我们可以看到有几个异常峰值。
曾老师曾经在一篇文章中提到右峰有可能是rRNA,就这个思路我们不妨将测序数据比对到不同的RNA上,没有比对上的数据即为去掉了对应RNA的数据。
需要使用到hisat2的--un-conc-gz参数~
RNA数据的下载
由于本次我们使用的是人的数据,所以在Nucleotide中输入Homo sapiens,如果是其他物种如拟南芥输入Arabidopsis thaliana(对应学名)即可。
将需要的RNA选中类型选中
以rRNA为例,输出为FASTA格式,再传到服务器按照常规比对方法比对即可。
rm_rRNA_qc
首先我们比对到rRNA上,比对的代码和结果如下,共有14.69%的reads比对到了rRNA上
# 建立索引
hisat2-build -p 16 rRNA.fasta rRNA
# 比对
hisat2 -x /home/xiaowang/GSE145894/4.rRNA_rm/genome_index/rRNA -1 /home/xiaowang/GSE145894/2.raw_fq/SRR11178348_1.fastq.gz -2 /home/xiaowang/GSE145894/2.raw_fq/SRR11178348_2.fastq.gz --un-conc-gz ./test_rm.fq.gz -p 16 -S ./test.sam
# 比对结果
49273485 reads; of these:
49273485 (100.00%) were paired; of these:
42251347 (85.75%) aligned concordantly 0 times
632294 (1.28%) aligned concordantly exactly 1 time
6389844 (12.97%) aligned concordantly >1 times
----
42251347 pairs aligned concordantly 0 times; of these:
333 (0.00%) aligned discordantly 1 time
----
42251014 pairs aligned 0 times concordantly or discordantly; of these:
84502028 mates make up the pairs; of these:
84072885 (99.49%) aligned 0 times
33143 (0.04%) aligned exactly 1 time
396000 (0.47%) aligned >1 times
14.69% overall alignment rate
# 质控
fastqc test_rm.fq*
以下是同一样本双端数据的fastqc结果
通过与原始数据对比,我们已经可以发现右峰被去除,说明右峰为rRNA。
rm_rRNA_ncRNA
在此基础上,我们再将数据比对到ncRNA上,共有11.19%reads比对到ncRNA上。
# 比对结果
42251347 reads; of these:
42251347 (100.00%) were paired; of these:
37862094 (89.61%) aligned concordantly 0 times
1965637 (4.65%) aligned concordantly exactly 1 time
2423616 (5.74%) aligned concordantly >1 times
----
37862094 pairs aligned concordantly 0 times; of these:
24274 (0.06%) aligned discordantly 1 time
----
37837820 pairs aligned 0 times concordantly or discordantly; of these:
75675640 mates make up the pairs; of these:
75050031 (99.17%) aligned 0 times
400055 (0.53%) aligned exactly 1 time
225554 (0.30%) aligned >1 times
11.19% overall alignment rate
此时去掉了rRNA和ncRNA的fastqc结果已经符合要求了。
rm_ncRNA
以下为原始数据比对到ncRNA后的fastqc结果,中间的小峰被去除。
同时我又尝试将测序数据直接比对到tRNA和cRNA上,比对率都为0,说明序列中都不包含tRNA和cRNA。
需要注意的是,生物体中的RNA理论上按照是否编码蛋白质将其分为编码RNA(coding RNA)和非编码RNA(non-coding RNA, ncRNA)两大类,前者指mRNA,后者则包括很多种类,如众所周知的tRNA和rRNA,参与mRNA剪接的snRNA,参与RNA修饰的snoRNA等。非编码RNA种类很多,按照长度可分为两大类:大于200 nt(核苷酸)的称为长非编码RNA(lncRNA),小于200 nt的称为小非编码RNA(small ncRNA),50 nt以下的还可称为tiny ncRNA,如siRNA、miRNA和piRNA等。
但我在测试的时候发现,上文中提到的rRNA、ncRNA、tRNA、cRNA在数据上没有交集,也就是说将去掉ncRNA后的数据比对到tRNA和cRNA的比对率为0并不是因为ncRNA的数据包含tRNA和cRNA,而是测序数据本身。
数据获取
以上演示数据来自GEO数据集GSE145894,按照以下方法即可下载
拿到Accession List以后进入服务器通过prefetch下载
cat SRR_Acc_List.txt | while read id
do
echo prefetch ${id} -O ./
done
参考资料:
相关文章
- 数据孤岛是业务效率的无声杀手
- 2023展望:新的一年将给大数据分析领域带来什么?
- 阿里云ADB基于Hudi构建Lakehouse的实践
- 大数据在医疗保健领域的使用案例
- 微软增加说明:KB5021751 更新扫描已经 / 即将过时 Office 过程中不会触碰用户隐私
- 2022 Gartner全球云数据库管理系统魔力象限发布 腾讯云数据库入选
- 场景化、重实操,分享一个实时数仓实践案例
- Arctic的湖仓一体践行之路
- 分布式计算MapReduce究竟是怎么一回事?
- 淘系数据模型治理优秀实践
- 大数据分析对医疗保健的影响
- 当我们说大数据Hadoop,究竟在说什么?
- 2022年及以后大数据的五个发展趋势
- 网易严选离线数仓治理实践
- 2023 年数据治理趋势
- 一份“靠谱”的年度经营计划,你学会了吗?
- 漫谈对大数据的思考
- 测试一下,读懂数据的能力,你有吗?
- 用艺术的眼光探索数据之美
- 聊聊数据分析成果如何落地