您现在的位置是：首页 > 数据库

当前栏目

跟着NC学宏基因分析流程-冠状病毒与人类微生物组之间相互作用

数据

2023-02-25 18:27:08 时间

hello，hello！小伙伴们大家下午好，我是小编豆豆，前段时间给各位分享了一篇跟着NC学扩增子流程，这次再和大家分享一篇根据NC学宏基因组分析流程。

文章是今年9月份发表在Nature Communications，题为：Dissecting the role of the human microbiome in COVID-19 via metagenome-assembled genomes。文章主要内容是作者使用六个研究机构已经发表的宏基因组二代测序数据，从514个来自于COVID-19患者的鼻腔与粪便样本，通过宏基因组装和binning技术共获得11584个MAGs（metagenome-assembled genomes）和5403个菌株水平的非冗余MAGs（nrMAGs）。研究发现，与正常人相比COVID-19 患者肠道中的许多微生物物种的菌株丰富度显著降低，并且根据肠道微生物组特征可以准确地将 COVID-19 病例与健康对照区分开来，并能预测 COVID-19 的进展，研究思路如下图所示：

样本来源：

这篇文章作者从已发表文章中中获取原始测序数据在NCBI的登录号，然后下载fastq文件进行数据分析，所涉及到的数据如下表所示：

作者在文中中一共使用6个研究机构提供的数据，从上表中我们可以了解到，现在主流做宏基因还是使用二代Illumina测序。从这六个项目总共收集到514个微生物组样本（来源于359个人），其中96个样本为鼻腔样本，418个样本为粪便样本。感染COVID-19的样本为404个，非COVID-19样本为110个，如下图所示：

此外，为了验证测试数据中得出的结论，作者还使用了2022年4月已发表的来源于278个人肠道的 341个粪便样本的测序数据。在验证队列中，来自 COVID-19 患者和非 COVID-19 对照的微生物组样本分别为 62.46% 和 37.54%。

数据分析方法:

1.宏基因的组装与binning

作者使用宏基因分析流程MetaWRAP对原始测序数据进行处理，MetaWRAP是是一款整合了质控、拼接、分箱、提纯、评估、物种注释、丰度估计、功能注释和可视化的分析流程，纳入超140个工具软件。详细流程如下：

1）使用Read_qc模块对原始数据进行质控和去除宿主污染；

2）使用metaWRAP-Assembly模块中的metaSPAdes工具对去除污染后的数据进行组装；

3）使用MaxBin2、metaBAT2和CONCOCT软件进行binning，并使用bin_refinement模块对binning结果进行提纯，最后用CheckM评估结果的污染率与完整度。

2.MAGs的聚类和去冗余

使用软件dRep对MAGs进行species-level genome bins (SGBs)上的聚类，然后使用软件GTDB-Tk基于Genome Taxonomy数据库对MAG进行分类注释。

3.计算物种丰度与系统发育树

使用软件Salmon计算每个nrMAGs的丰度，并使用PhyloPhlAn构建进化树并使用iTOL对进化树进行美化。

4.nrMAGs的基因组注释

使用Prokka软件对bining得到的基因组进行基因预测，并使用MicrobeAnnotator对基因进行功能注释并且评估各个数据库注释的完整性。最后使用HUMANN3进行功能分析。

5.统计分析

使用R程序包vegan计算Alpha多样性和Beta多样性，使用R程序包 random Forest进行随机森林回归分析。

学习心得

文章通过使用公共数据库中的测序数据，对宏基因组原始下机数据进行组装和binning，结合统计学和机器学习算法对数据进行个性化的挖掘，并且在GitHub（https://github.com/Owenke247/COVID-19）上提供完整的分析步骤和流程代码库，是新手学习宏基因组分析流程的最佳学习素材。

参考文献

[1].Uritskiy, G.V., DiRuggiero, J. & Taylor, J. MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis. Microbiome 6, 158 (2018). https://doi.org/10.1186/s40168-018-0541-1

[2].Ke, S., Weiss, S.T. & Liu, YY. Dissecting the role of the human microbiome in COVID-19 via metagenome-assembled genomes. Nat Commun 13, 5235 (2022). https://doi.org/10.1038/s41467-022-32991-w

今天的推文就给大家介绍到这里，想宏基因的数据分析的小伙伴可以认真的学习这篇NC文献，相信大家和小编一样，会获得一些小收获对。

猜你喜欢

最长无重复子串
写技术博客的一些心得分享
Java 多线程（七）：线程池
Java 多线程（五）：锁（三）
Java 多线程（四）：锁（二）
Java 多线程（三）：锁（一）
Java 多线程（二）：并发编程的三大特性
线性时间非比较类排序
Java 多线程（一）：基础
合并k个已排序的链表
HDFS 高可用分布式环境搭建
合并两个有序数组
连续子数组的最大和
HDFS 分布式环境搭建
容器盛水问题
大数加法
HDFS 伪分布式环境搭建
设计LRU缓存结构
两数之和
使用单调栈来解决的一些问题

zl程序教程

当前栏目

跟着NC学宏基因分析流程-冠状病毒与人类微生物组之间相互作用

相关文章