zl程序教程

您现在的位置是:首页 >  其他

当前栏目

fastq文件格式解读

2023-04-18 14:27:54 时间

二代测序返回的结果有时候一个物种的测序结果会返回来两个双端的fastp。

r1.fq.gz l1.fq.gz

r2.fq.gz l2.fq.gz

测序数据内容实际上一块的,只是传输时分成两个部分。

我们使用时习惯将其合并为一个双端文件。

原理

原理就是将两个文件内容依次输入到一个新的文件内,你也可以将第二个文件内容追加到第一个文件后面。

zcat命令可以不用解压缩来实现内容输出。

zcat r1.fq.gz >>r.fq.gz

zcat r2.fq.gz >>r.fq.gz

实践

实践数据如下

  2994738374 Mar  5 18:46 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz'
  8571667328 Mar  5 19:54  FDSW202295954-1r_L1_1_clean.rd.fq.gz
  3175088028 Mar  5 19:38 'FDSW202295954-1R_L1_2(1)_clean.rd.fq.gz'
  8926160282 Mar  5 19:20  FDSW202295954-1r_L1_2_clean.rd.fq.gz

zcat FDSW202295954-1r_L1_1_clean.rd.fq.gz >> FDSW202295954-1r_L1_1.clean.fq

tail -n 4 FDSW202295954-1r_L1_1.clean.fq

可以通过tail命令查看最后一条的read信息。

第一个fq文件的最后一个read

@A01050:296:HK55GDSXY:1:2678:17309:36323 1:N:0:TCCTTGAG+CACGTACT
ATTTCATAATTTAATATTAACTTTAAAGAATAATTTTTCAAAAAAAAAAAAATTTTTTTAATTACCTTGTGTGACAATATTTGATCGATTGTAATGGGATAACTTTAAATTAACTTCAAAAGAGGGGTTACGCTTAATCTGAATAGGTAA
+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFF:FF:FFFFFFFFF:FFFFFF:FF:FFFFFF:,FFFFF::FFF:FFFFFF:FFFFFFF::FFFFF:FFF

接下来接上下一个L文件

`zcat 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz' >>

FDSW202295954-1r_L1_1.clean.fq`

拼接完成以后我们检查一下,首先用less查看一下第二个文件的第一条read信息。

less 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz'

第二个fq文件的第一个read

@A01050:298:HK577DSXY:1:1101:2899:1000 1:N:0:TCCTTGAG+CACGTACT
AATGGCCACGAGCACTGGAACTCCAGCGACGGTTAATTCCGACCAATCAATTCAGGTAAAACTTTTGATTTTTGAGGAAGGGGACAACATCGAGATTTTTTTCTTTAATTCGATACGTTGATAAAGATAAAAAAATGGGAAGATTGGAGA
+
F:FF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:F:FFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFF:FFFFFF:FFFFFFFFFF,FFFFFFFFFF:F:F:FFFFFFFFF
@A01050:298:HK577DSXY:1:1101:3025:1000 1:N:0:TCCTTGAG+CACGTACT

查看第二个fq文件第一个read的身份信息找其前后10行的内容。

`grep -10 '@A01050:298:HK577DSXY:1:1101:2899:1000 1:N:0:TCCTTGAG+CACGTACT'

FDSW202295954-1r_L1_1.clean.fq`

+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
@A01050:296:HK55GDSXY:1:2678:16694:36323 1:N:0:TCCTTGAG+CACGTACT
AGTACTACCGGGCAAATCGACAATATGGGAACATCAACTCTCACGAATGGTGGAATGGATCATGCCTCAATCCTTTTTCAAAGCGTTATTTCGGGTGATAACACTCCCGGGACTGATCTCTTAACGCCTCAGAGACAGGTCTTAAATAGC
+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
@A01050:296:HK55GDSXY:1:2678:17309:36323 1:N:0:TCCTTGAG+CACGTACT #第一个fq的最后一个read
ATTTCATAATTTAATATTAACTTTAAAGAATAATTTTTCAAAAAAAAAAAAATTTTTTTAATTACCTTGTGTGACAATATTTGATCGATTGTAATGGGATAACTTTAAATTAACTTCAAAAGAGGGGTTACGCTTAATCTGAATAGGTAA
+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFF:FF:FFFFFFFFF:FFFFFF:FF:FFFFFF:,FFFFF::FFF:FFFFFF:FFFFFFF::FFFFF:FFF
@A01050:298:HK577DSXY:1:1101:2899:1000  1:N:0:TCCTTGAG+CACGTACT #第二个fq的第一个read
AATGGCCACGAGCACTGGAACTCCAGCGACGGTTAATTCCGACCAATCAATTCAGGTAAAACTTTTGATTTTTGAGGAAGGGGACAACATCGAGATTTTTTTCTTTAATTCGATACGTTGATAAAGATAAAAAAATGGGAAGATTGGAGA
+
F:FF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:F:FFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFF:FFFFFF:FFFFFFFFFF,FFFFFFFFFF:F:F:FFFFFFFFF
@A01050:298:HK577DSXY:1:1101:3025:1000 1:N:0:TCCTTGAG+CACGTACT
AGAGAGGGAGGGGGTAAAAAGTTTTTGATGTTTTGGGTGGTAAGTAAGCCCGAATATCGGATAACCCTAAATCCCCATTCTATTACACCTATGGTTCTAATATCTTTCCGAGATCAAAATTCCAAGATTAATGTGCCATATGACATAACT
+
:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFF:FFFFF
@A01050:298:HK577DSXY:1:1101:4092:1000 1:N:0:TCCTTGAG+CACGTACT
CCTCCCCCCTTTCCCATTTTTTTTTTATTTTAAAATTTTTCAGGGTTGTAACCTCATTTTTAAGTCCCTATACCGGGTTGTGGGGTCATTCCTCTGTCTCCCTACAGGTTTGTGGCGTGTCCGTCCCCCGCCCCCCAGGACCCATGTGGT
+

第一个fq文件的最后一个read与第二个fq文件的第一个read衔接,也没有缺失换行或者多换行符,成功完成了数据合并。

打包成tar.gz格式压缩包

tar -zcvf 压缩后文件名.tar.gz 待压缩文件名

解压tar.gz格式压缩包

tar zxvf 待解压文件名.tar.gz