zl程序教程

您现在的位置是:首页 >  其它

当前栏目

转录组 - 比对

转录
2023-06-13 09:15:26 时间

生信技能树学习笔记

参考基因组准备

常用参考基因组

  • Ensembl asia.ensembl.org/index.html
  • NCBI
  • UCSC
## 进入参考基因组目录
mkdir -p $HOME/database/GRCh38.105
cd $HOME/database/GRCh38.105

## 下载基因组
## 一般选择primary assembly,没有的话可以选择toplevel
nohup wget -c https://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > dna.log &

## 下载转录组序列
nohup wget -c http://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz >rna.log &

## 下载基因组注释文件
nohup wget -c http://ftp.ensembl.org/pub/release-105/gtf/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gtf.gz >gtf.log &

nohup wget -c http://ftp.ensembl.org/pub/release-105/gff3/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gff3.gz >gff.log&

fasta 数据格式

  • 以 > 开头,序列名称&序列描述
  • 序列中允许空格、换行、空行,直到下一个 > ,表示该序列结束

gff/gtf 文件介绍

  • 第三列 属性的类型,gff和gtf的区别
  • 第九列 属性的特征

Ensembl基因组数据库

  • ENSMUSG
  • ENSG 人默认没有物种前缀

比对 Hisat2, Subjunc

比对内容

  • 建索引
  • 比对参考基因组
  • sam转bam

Hisat2

主要参数

  • -x 索引文件的前缀
  • -1 双端测序结果的第一个文件
  • -2 双端测序结果的第二个文件
  • -U 单端数据文件
  • --rna 链特异性参数
  • -p 线程数