基因组组装: 3D-DNA 染色体挂载
2023-02-25 18:21:56 时间
导读
本文将介绍基因组组装过程中,如何利用HiC
测序数据,进行染色体级别基因组的组装。该过程主要利用 Juicer 和 3D-DNA 进行,有关第一步Juicer
的过程,已经下方的文章中介绍了,本文主要介绍第二步:3D-DNA
的安装与使用。
1. 背景介绍
目前基因组组装的主要流程是,利用二代或者三代技术进行测序,利用得到的测序数据,拼接为contig
级别的基因组,如果需要上升到染色体级别,那么就需要对物种进行HiC
测序,进一步进行染色体挂载。目前对于二倍体动物,3D-DNA
是效果最好的,下面就介绍3D-DNA
的使用方法。
2. 安装
2.1. 流程图
上图是使用3D-DNA
进行染色体挂载的流程图,其中第一步是测序和基础组装,测序一般是交给测序公司来完成,contig
组装利用物种对应的组装软件即可。第二步时利用Juicer
对HiC
数据进行分析。第三步是利用3D-DNA
进行挂载。
2.2. 依赖
下面这些是3D-DNA
的依赖,如果阅读过之前Juicer
的使用教程,那么环境已经配置完成,没有阅读过的读者,可以在文末选择跳转。
LastZ (version 1.03.73 released 20150708)
–仅适用于二倍体Java version >=1.7
Bash >=4
GNU Awk >=4.0.2
GNU coreutils sort >=8.11
Python >=2.7
- 仅适用于染色体编号感知分离器模块scipy numpy matplotlib
- 仅适用于染色体编号感知分离器模块
2.3. clone
# 从Github拉取仓库
git clone https://github.com/theaidenlab/3d-dna.git
3. 实战
3.1. 数据准备
- 基因组文件:
genome.fa
Juicer
结果:merged_nodups.txt
3.2. run
# 对组装的信心高,用-r 0, 否则用默认的-r 2就行了
# -r 代表 3d-dna 修正的次数
# merged_nodups.txt 在 上一步Juicer运行的aligned目录下
/home/ubuntu/3d-dna/run-asm-pipeline.sh -r 2 \
reference/genome.fa aligned/merged_nodups.txt &> log.txt &
3.3. 结果
最终的输出文件最关键的是下面三类:
.fasta
: 以FINAL标记的是最终结果.hic
: 各个阶段都会有输出结果,用于在JABT中展示.assembly
: 各个阶段都会有输出,一共两列,存放contig的组装顺序
将结果中的.hic
文件和.assembly
文件导入Juicebox
中进行调整,最后输出修改后的.assembly
文件,再运行下面命令,即可获取染色体级别的基因组。
/home/ubuntu/3d-dna/run-asm-pipeline-post-review.sh \
-r genome.review.assembly \
genome.fa aligned/merged_nodups.txt
# genome.review.assembly 来自Juicebox中导出
相关文章
- 软件测试|Yaml实现测试数据驱动
- 如何构建高性能可视化架构?一个交互式实时数据引擎的架构设计
- MySQL8.0默认加密连接方式
- 自动增量计算:构建高性能数据分析系统的任务编排
- 面试官:如果要存ip地址,用什么数据类型比较好
- Pandas与SQL的超强结合,爆赞!
- MongoDB数据的导出导入及日志分析
- 严选交易数据源独立切换实践
- 邮件安全:从 安全网关 到 基于图建模的数据运营
- 简单的六种防止数据重复提交的方法!
- 迪塔维王珂:聚焦数据治理,助力高校信息化高质量建设 | 镁客·请讲
- 江苏鸿程大数据黄宜华教授:从实验室到市场,「学者创客」大数据&AI创业 | 镁客·请讲
- 自建 MongoDB 实践:MongoDB 复制集
- 一款SQL自动检查神器,再也不用担心SQL出错了!
- 什么?比 MySQL 性价比更高的 TiDB Cloud Serverless Tier 来了?
- 盘点66个Pandas函数,轻松搞定“数据清洗”!
- 一文说清楚配置数据源的参数
- 500W数据,20Wqps分词检索,架构如何设计?
- 一个例子,看懂关系型数据库和Redis的区别
- TiDB 首批通过信通院 HTAP 数据库基础能力评测