zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

生物信息学常见数据格式

2023-03-07 09:41:33 时间

生信技能树学习笔记

fasta

一种基于文本用于表示核酸序列或多肽序列的格式,缩写为fa

特征:两部分

-id行:以“>”开头,有时候会包含注释信息

-序列行:一个字母表示一个碱基/氨基酸,ATCGN 或 20种氨基酸

fastq

一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式

通常有四行

第一行 @开头,之后为序列的标识符以及描述信息

第二行 为序列信息,如ATCG

第三行 +开头,之后可以再次加上序列的标识符以及描述信息

第四行 为碱基质量值,长度与第二行一一对应

gff

image.png