转录组 - 比对
转录
2023-06-13 09:15:26 时间
生信技能树学习笔记
参考基因组准备
常用参考基因组
- Ensembl asia.ensembl.org/index.html
- NCBI
- UCSC
## 进入参考基因组目录
mkdir -p $HOME/database/GRCh38.105
cd $HOME/database/GRCh38.105
## 下载基因组
## 一般选择primary assembly,没有的话可以选择toplevel
nohup wget -c https://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > dna.log &
## 下载转录组序列
nohup wget -c http://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz >rna.log &
## 下载基因组注释文件
nohup wget -c http://ftp.ensembl.org/pub/release-105/gtf/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gtf.gz >gtf.log &
nohup wget -c http://ftp.ensembl.org/pub/release-105/gff3/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gff3.gz >gff.log&
fasta 数据格式
- 以 > 开头,序列名称&序列描述
- 序列中允许空格、换行、空行,直到下一个 > ,表示该序列结束
gff/gtf 文件介绍
- 第三列 属性的类型,gff和gtf的区别
- 第九列 属性的特征
Ensembl基因组数据库
- ENSMUSG
- ENSG 人默认没有物种前缀
比对 Hisat2, Subjunc
比对内容
- 建索引
- 比对参考基因组
- sam转bam
Hisat2
主要参数
- -x 索引文件的前缀
- -1 双端测序结果的第一个文件
- -2 双端测序结果的第二个文件
- -U 单端数据文件
- --rna 链特异性参数
- -p 线程数
相关文章
- Hist2ST:联合Transformer和图神经网络从组织学图像中进行空间转录组学预测
- 单细胞转录组绘制肺癌图谱
- 大样品量的传统bulk转录组解决方案
- 处理前后单细胞转录组数据的整合与否确实影响了分析结论
- 关于空间转录组单细胞精度的讨论
- 单细胞转录组 | 使用SingleR进行细胞亚群自动注释
- [Genome Biology | 论文简读] 通过解释深度学习模型识别癌症的常见转录组特征
- [NC | 论文简读] devCellPy是一个机器学习支持的管道,用于自动注释复杂的多层单细胞转录组数据
- NC | Spatial-ID:通过迁移学习和空间嵌入进行空间高分辨转录组数据的细胞注释
- 10X单细胞(10X空间转录组)数据分析之代谢推断篇
- 10X空间转录组数据分析汇总2