您现在的位置是：首页 > 数据库

当前栏目

二代测序宏基因组分析软件安装及数据库下载

数据库安装软件下载分析测序基因组二代

2023-06-13 09:17:13 时间

一、二代宏基因组分析的特点

优势：

1、高通量，可以测序出低丰度样品；

2、价格低，适合大规模样品测序；

3、准确性高，鉴定结果准确；

不足：

1、读长短，容易出现多重比对；

2、设备重，不方便现场测序；

3、容易收到 GC 偏向性影响；

4、需要扩增，容易引入偏向性。

二、二代测序宏基因组分析流程

二代宏基因组分析流程图

1、数据质控：使用 kneaddata 软件，该软件先调用 Trimmomatic 过滤数据，然后利用bowtie2 或 bmtagger 比对宿主数据库去除宿主数据 (也可以去除核糖体数据)。

2、如果不拼接，则可以进行物种分类鉴定，包括组成件鉴定和功能鉴定，物种丰度分析，使用软件 MetaPhlAn2 或 Kraken2 实现序列的物种分类。功能鉴定可以使用 Humann 完成。

3、也可以对基因组进行拼接，使用 megahit 和 metaspades 软件按照样本进行宏基因组组装。拼接完整之后，可以进行基因预测，使用 prokka 软件直接从组装好的 contig 或者scafford 预测基因，并使用 cd-hit 构建非冗余基因集。然后对预测得到的基因进行功能分析，与已知数据库例如 NR, COG, GO, KEGG, CAZY, ARDB 等数据库注释基因的功能。

如果想做基因丰度分析，有两种方案，第一种非比对方案，使用 Salmon 软件；第二种比对方案，bwa 或其他比对软件比对，bedtools 丰度统计。

4、如果有多样品，可以进行分组统计，将得到物种/基因/功能表后利用 R 语言或者 STAMP等软件在物种，基因，功能等三个层面进行差异分析。

三、宏基因组分析团队

3.1 The Huttenhower Lab

官方主页：http://huttenhower.sph.harvard.edu/
biobakery 主页：https://github.com/biobakery
Galaxy 主页：http://huttenhower.sph.harvard.edu/galaxy/

3.2 意大利特伦托大学 Nicola Segata

官方主页：http://segatalab.cibio.unitn.it/
github 主页：https://github.com/biobakery

开发维护软件：http://segatalab.cibio.unitn.it/tools/index.html
MetaPhlAn (2022 )，PhyloPhlAn (2020)，ViromeQC (2019)，curatedMD (2017)，MetaMLST 
(2016)，StrainPhlAn (2022)，MetAML (2016)，PanPhlAn (2020)，GraPhlAn (2015)，MetaRef 
(2014)，MetaPhlAn (2012)，LEfSe (2011)，ShortBRED (2015)，MicroPITA (2014)，HUMAnN 
(2012)

四、软件安装以及数据库下载

4.1 软件安装

#bioBakery：http://segatalab.cibio.unitn.it/tools/biobakery/index.html
conda create -n biobakery python=3.7 -y
conda activate biobakery
conda config --add channels biobakery

#安装软件humann,kneaddata
conda install -y -c bioconda humann
#conda install -y -c biobakery humann 或者这个点安装
conda install -y -c biobakery kneaddata
conda install -y krona
conda install -y -c biobakery hclust2

#python2.7环境
conda create -n graphlan python=2.7 -y
conda activate graphlan
conda install -y graphlan
conda install -y export2graphlan
#conda install -y -c bioconda strainphlan  没安装上

4.2 kneaddata 配置

$ kneaddata_database
KneadData Databases ( database : build = location )
human_genome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
human_genome : bmtagger = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_BMTagger_v0.1.tar.gz
human_transcriptome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg38_transcriptome_Bowtie2_v0.1.tar.gz
ribosomal_RNA : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/SILVA_128_LSUParc_SSUParc_ribosomal_RNA_v0.2.tar.gz
mouse_C57BL : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/mouse_C57BL_6NJ_Bowtie2_v0.1.tar.gz
#可以将以上链接复制去本地迅雷下载，再上传到服务器 比较快
kneaddata_database --download human_genome bowtie2 ./ #自带命令下载比较慢
#第二种：国家微生物科学中心下载，挺快
lftp ftp://download.nmdc.cn/tools/kneaddata
mirror human_genome

#自建bowtie2索引
#下载拟南芥
axel -n 100 http://ftp.ensemblgenomes.org/pub/plants/release-53/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
gunzip Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
mv Arabidopsis_thaliana.TAIR10.dna.toplevel.fa tair10.fa
# bowtie2构建索引
bowtie2-build -f tair10.fa tair10 --threads 12

4.3 metaphlan 配置

#安装 metaphlan
conda create --name mpa -c bioconda python=3.7 metaphlan
#官网下载，
Zenodo：https://zenodo.org/record/3957592#.YrFQd4dBwQ8
    wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901_marker_info.txt.bz2
    wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901.tar

Segatalab FTP：http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/
    http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
    http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901.tar
    可以用迅雷下载完上传，两个文件共计400M左右。

#国家微生物科学中心下载，版本可能不对，建议还是上述迅雷下载
lftp ftp://download.nmdc.cn/tools/humann3
mirror metaphlan_databases/

#配置数据库
cd ~/Software/miniconda3/envs/mpa/lib/python3.7/site-packages/metaphlan/metaphlan_databases/
cp /share/home/xiehs/17.meta/database/metaphlan/* ./ #刚才下载文件所在的目录
    $ ll
    total 400M
    -rw-rw-r-- 2 xiehs xiehs   50 Oct 26 20:59 README.txt
    -rw-rw-r-- 1 xiehs xiehs  14M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
    -rw-rw-r-- 1 xiehs xiehs 408M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901.tar

4.4 humann 配置

软件的安装非常简单，一条命令即可，关键在于数据库的配置。humann 需要依赖很多数据库。首先需要配置好 metaphlan，其次下载一些 humann 需要的数据库，具体数据库见下面介绍。

1、MetaPhlAn 的 Marker 基因集，用于物种组成分析，物种包括古菌、细菌、真核生物和病毒；

2、ChocoPhlAn 泛基因组数据库，可以更快速准确获得功能谱，可获得基因组、基因和通路层面的结果；

3、UniRef：数据库提供基因家族的定义，UniRef 包含三个子库，按照序列相似度分别为UniRef100，UniRef90 和 UniRef50。UniRef100 无相同序列，而 UniRef90 和 UniRef50 则是非冗余的，聚类相似度 90%和 50%。不要将 uniref 数据放到同一目录下，会先比较 uniref90在比较 uniref50；

4、MetaCyc：通路基因通路的定义；

5、MinPath：提供定义的最小通路集。

#方法1：从官网下载数据库，速度比较慢
#显示数据库内容
humann_databases
    http://huttenhower.sph.harvard.edu/humann_data/chocophlan/full_chocophlan.v296_201901b.tar.gz
#创建数据库目录
mkdir humann3_databases 
#方法1：官网下载，下载速度慢，用迅雷吧
humann_databases --download chocophlan full humann3_databases
humann_databases --download uniref uniref90_diamond humann3_databases
#humann_databases --download uniref uniref90_ec_filtered_diamond humann3_databases
humann_databases --download uniref uniref50_diamond humann3_databases
#humann_databases --download uniref uniref50_ec_filtered_diamond humann3_databases
humann_databases --download utility_mapping full humann3_databases

#方法2：国家微生物科学数据中心下载数据库，版本不对，这种方式下载不建议
lftp ftp://download.nmdc.cn/tools/
ls
mirror humann3 #full_chocophlan.v201901.tar.gz可见版本不对，不是前面humann_databases中的01b版本，这种方式下载不建议
mkdir chocophlan uniref utility_mapping

将4个数据库分别下载上传后，解压到各自目录

#3 更新数据库
humann_config --print
#数据库目录 /ifs1/MetaDatabase/humann3_databases，这里选用90的ref，准一些
humann_config --update database_folders nucleotide /share/home/xiehs/17.meta/database/humann3_databases/full_chocophlan
humann_config --update database_folders protein /share/home/xiehs/17.meta/database/humann3_databases/uniref90_diamond
humann_config --update database_folders utility_mapping /share/home/xiehs/17.meta/database/humann3_databases/utility_mapping
#更新完检查
humann_config --print
#修改线程
humann_config --update run_modes threads 12

写在最后：有时间我们会努力更新的。大家互动交流可以前去论坛，地址在下面，复制去浏览器即可访问，弥补下公众号没有留言功能的缺憾。

bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等，欢迎大家来提建议。

猜你喜欢

解除Oracle数据库的密码限制（oracle关闭密码限制）
美国华盛顿州农业部首次通过陷阱捕获了一只“杀人大黄蜂”
Oracle数据库中添加主外键的方法（oracle中加主外键）
（十七）函数的调用签名
.NETWindows多线程thread编程
深圳和信中欧金融科技研究院成立，院长牛津大学计算机教授带来哪些利好？
深入了解JS 数据类型
Python不同对象比较大小示例探讨
Linux 基金会创办LFN 旨在协调开源网络生态系统
安全沙箱技术的原理、应用程序的安全性和稳定性
java开发的玩具商城系统玩具店
Oracle连接符：提升数据库查询效率（oracle连接符）
「MySQL大全」——全面介绍MySQL的使用方法和命令（mysql大全）
深入体验：Linux笔记本电脑之旅（笔记本电脑linux系统）
【说站】EhPG小说多线程下载器v1.9

zl程序教程

当前栏目

二代测序宏基因组分析软件安装及数据库下载

相关文章