您现在的位置是：首页 > 数据库

当前栏目

测序数据GC含量异常该如何处理？

异常数据

2023-03-07 09:16:21 时间

我们在对测序数据进行fastqc质控时，会比较关注样本的GC含量，较好的数据如下图所示

Normal data

事实上，我们的测序结果会受到建库方式、样本质量等很多因素的影响，其GC含量也会千差万别。下图是真实测序结果的fastqc报告，很明显其GC含量有多个峰值，相当的“红”。我们在进行后续分析之前，首先要对其进行一定处理，去掉杂峰的影响。

Abnormal data

为了便于测试，我选取了一个样本的双端测序结果进行演示，如果想自己尝试可翻到文末数据获取部分下载数据。

rawdata_qc

下图是双端测序结果的fastqc质控报告中的GC含量部分，我们可以看到有几个异常峰值。

曾老师曾经在一篇文章中提到右峰有可能是rRNA，就这个思路我们不妨将测序数据比对到不同的RNA上，没有比对上的数据即为去掉了对应RNA的数据。

需要使用到hisat2的--un-conc-gz参数~

RNA数据的下载

由于本次我们使用的是人的数据，所以在Nucleotide中输入Homo sapiens，如果是其他物种如拟南芥输入Arabidopsis thaliana（对应学名）即可。

将需要的RNA选中类型选中

以rRNA为例，输出为FASTA格式，再传到服务器按照常规比对方法比对即可。

rm_rRNA_qc

首先我们比对到rRNA上，比对的代码和结果如下，共有14.69%的reads比对到了rRNA上

# 建立索引
hisat2-build -p 16 rRNA.fasta rRNA

# 比对
hisat2 -x /home/xiaowang/GSE145894/4.rRNA_rm/genome_index/rRNA -1 /home/xiaowang/GSE145894/2.raw_fq/SRR11178348_1.fastq.gz -2 /home/xiaowang/GSE145894/2.raw_fq/SRR11178348_2.fastq.gz --un-conc-gz ./test_rm.fq.gz -p 16 -S ./test.sam

# 比对结果
49273485 reads; of these:
  49273485 (100.00%) were paired; of these:
    42251347 (85.75%) aligned concordantly 0 times
    632294 (1.28%) aligned concordantly exactly 1 time
    6389844 (12.97%) aligned concordantly >1 times
    ----
    42251347 pairs aligned concordantly 0 times; of these:
      333 (0.00%) aligned discordantly 1 time
    ----
    42251014 pairs aligned 0 times concordantly or discordantly; of these:
      84502028 mates make up the pairs; of these:
        84072885 (99.49%) aligned 0 times
        33143 (0.04%) aligned exactly 1 time
        396000 (0.47%) aligned >1 times
14.69% overall alignment rate

# 质控
fastqc test_rm.fq*

以下是同一样本双端数据的fastqc结果

通过与原始数据对比，我们已经可以发现右峰被去除，说明右峰为rRNA。

rm_rRNA_ncRNA

在此基础上，我们再将数据比对到ncRNA上，共有11.19%reads比对到ncRNA上。

# 比对结果
42251347 reads; of these:
  42251347 (100.00%) were paired; of these:
    37862094 (89.61%) aligned concordantly 0 times
    1965637 (4.65%) aligned concordantly exactly 1 time
    2423616 (5.74%) aligned concordantly >1 times
    ----
    37862094 pairs aligned concordantly 0 times; of these:
      24274 (0.06%) aligned discordantly 1 time
    ----
    37837820 pairs aligned 0 times concordantly or discordantly; of these:
      75675640 mates make up the pairs; of these:
        75050031 (99.17%) aligned 0 times
        400055 (0.53%) aligned exactly 1 time
        225554 (0.30%) aligned >1 times
11.19% overall alignment rate

此时去掉了rRNA和ncRNA的fastqc结果已经符合要求了。

rm_ncRNA

以下为原始数据比对到ncRNA后的fastqc结果，中间的小峰被去除。

同时我又尝试将测序数据直接比对到tRNA和cRNA上，比对率都为0，说明序列中都不包含tRNA和cRNA。

需要注意的是，生物体中的RNA理论上按照是否编码蛋白质将其分为编码RNA（coding RNA）和非编码RNA（non-coding RNA, ncRNA）两大类，前者指mRNA，后者则包括很多种类，如众所周知的tRNA和rRNA，参与mRNA剪接的snRNA，参与RNA修饰的snoRNA等。非编码RNA种类很多，按照长度可分为两大类：大于200 nt（核苷酸）的称为长非编码RNA（lncRNA），小于200 nt的称为小非编码RNA（small ncRNA），50 nt以下的还可称为tiny ncRNA，如siRNA、miRNA和piRNA等。

但我在测试的时候发现，上文中提到的rRNA、ncRNA、tRNA、cRNA在数据上没有交集，也就是说将去掉ncRNA后的数据比对到tRNA和cRNA的比对率为0并不是因为ncRNA的数据包含tRNA和cRNA，而是测序数据本身。

数据获取

以上演示数据来自GEO数据集GSE145894，按照以下方法即可下载

拿到Accession List以后进入服务器通过prefetch下载

cat SRR_Acc_List.txt | while read id
do
 echo prefetch ${id} -O ./
done

参考资料：

猜你喜欢

首开先河 | 脑机接口让这位ALS患者可读可写
用手说话？你也可以和它们一起思考
IP地址查询：揭晓安欣警官自证清白的黑科技
GB/T28181-2022针对H.265、AAC的说明和技术实现
酒店详情页的房价数据，怎么获取？
recoveriX脑机接口脑卒中康复系统讨论会议——关于脑卒中患者康复情况与软件特点的讨论
数据集 | 并发脑电图、心电图和多剂量经颅电刺激行为的数据集
自家脑机接口公司无法开展人体试验马斯克心生不满欲投资对手
多伦多儿童医院的脑机接口实验正在进行
脑机接口新应用，无声语音信号解码
布朗大学研究者提出的下一代脑机接口系统是什么样的？
北理工团队在基于非侵入式神经信号的连续运动解码方面取得新进展
脑机接口在物联网领域的应用
【Vue】1524- 分享 22 道常被问及的 JavaScript 面试题
【Web技术】1528- 来自大厂前端页面截图方案
【资讯】1574- Ant Design 5.0 正式发布！
什么是极速文件传输，极速文件传输如何进行大文件传输
【Vue】1564- 8 个很棒的 Vue 开发技巧
【低代码】1570- 9个顶级无代码开发工具
迈迪克，一家专注生命科学领域自动化的平台型企业

zl程序教程