TBtools | 基因序列ID简化、重命名及添加前缀
2023-04-18 14:46:14 时间
你是否遇到过基因原始序列ID太长,包含太多不需要的信息,那么我们该如何对原始序列ID进行操作来加速我们的数据分析呢?
如果你有这方面的困扰,那么本期讲解的TBtools序列工具中的基因序列ID处理工具,相信一定会对你有所帮助。ID处理工具共包括ID Simplify、ID Rename和ID Prefix三部分。
进入TBtools界面,点击Sequence Toolkit进入Fasta Tools即可看到(如下图)。
演示文件
>ATCG00050.1 pacid=19637970 locus=ATCG00050 ID=ATCG00050.1.TAIR10 annot-version=TAIR10
ATGGTAAAACTTCGTTTAAAACGATGTGGTAGAAAGCAACGAGCCGTTTATCGAATCCTT
GCAATTGATGTTCGATACCGAAGAGAAGGAAGAGATCTTAGTAAGGTGGGTTTTTATGAT
CCCATAACTAATCAAACTTTTTTAAACCTTTCTGCTATTCTCGATTTTCTTAAAAAAGGA
GCTCAACCAACAAGAACAGCTCATGATATTTCAAAGAAGGCTGGGATTTTTACGGAATGA
>ATCG00065.1 pacid=19638004 locus=ATCG00065 ID=ATCG00065.1.TAIR10 annot-version=TAIR10
ATGCCAACCATTAAACAACTTATTAGAAATACAAGACAGCCAATCCGAAACGTCACGAAA
TCCCCAGCGCTTCGGGGATGCCCTCAGCGACGAGGAACATGTACTCGGGTGTAT
>ATCG00070.1 pacid=19637972 locus=ATCG00070 ID=ATCG00070.1.TAIR10 annot-version=TAIR10
ATGCTTAATATATTTAATTTGATCTGTATTTTTTTTAATTCTACCCTTTTTTCAAGCACT
TTTTTAGTCGCCAAATTGCCAGAGGCCTACGCCTTTTTGAATCCAATCGTAGATGTTATG
CCCGTAATACCTCTTTTCTTTCTTCTCTTAGCCTTTGTTTGGCAAGCCGCTGTAAGTTTT
CGATAA
>ATCG00080.1 pacid=19637976 locus=ATCG00080 ID=ATCG00080.1.TAIR10 annot-version=TAIR10
ATGCTTACTCTCAAACTTTTTGTATACACTGTAGTTATATTCTTTGTTTCTCTCTTCATA
TTTGGATTCCTATCTAATGATCCAGGACGTAATCCGGGACGTGAAGAATAA
功能介绍
1.ID Simplify(ID简化)
ID简化可以将原始序列ID的描述信息去掉从而实现简化。
输出结果:
>ATCG00050.1
ATGGTAAAACTTCGTTTAAAACGATGTGGTAGAAAGCAACGAGCCGTTTATCGAATCCTT
GCAATTGATGTTCGATACCGAAGAGAAGGAAGAGATCTTAGTAAGGTGGGTTTTTATGAT
CCCATAACTAATCAAACTTTTTTAAACCTTTCTGCTATTCTCGATTTTCTTAAAAAAGGA
GCTCAACCAACAAGAACAGCTCATGATATTTCAAAGAAGGCTGGGATTTTTACGGAATGA
>ATCG00065.1
ATGCCAACCATTAAACAACTTATTAGAAATACAAGACAGCCAATCCGAAACGTCACGAAA
TCCCCAGCGCTTCGGGGATGCCCTCAGCGACGAGGAACATGTACTCGGGTGTAT
>ATCG00070.1
ATGCTTAATATATTTAATTTGATCTGTATTTTTTTTAATTCTACCCTTTTTTCAAGCACT
TTTTTAGTCGCCAAATTGCCAGAGGCCTACGCCTTTTTGAATCCAATCGTAGATGTTATG
CCCGTAATACCTCTTTTCTTTCTTCTCTTAGCCTTTGTTTGGCAAGCCGCTGTAAGTTTT
CGATAA
>ATCG00080.1
ATGCTTACTCTCAAACTTTTTGTATACACTGTAGTTATATTCTTTGTTTCTCTCTTCATA
TTTGGATTCCTATCTAATGATCCAGGACGTAATCCGGGACGTGAAGAATAA
2.ID Rename(ID重命名)
我们对上一步简化后的ID进行重命名,具体步骤如下:
输出结果:
>New_id1
ATGGTAAAACTTCGTTTAAAACGATGTGGTAGAAAGCAACGAGCCGTTTATCGAATCCTT
GCAATTGATGTTCGATACCGAAGAGAAGGAAGAGATCTTAGTAAGGTGGGTTTTTATGAT
CCCATAACTAATCAAACTTTTTTAAACCTTTCTGCTATTCTCGATTTTCTTAAAAAAGGA
GCTCAACCAACAAGAACAGCTCATGATATTTCAAAGAAGGCTGGGATTTTTACGGAATGA
>New_id2
ATGCCAACCATTAAACAACTTATTAGAAATACAAGACAGCCAATCCGAAACGTCACGAAA
TCCCCAGCGCTTCGGGGATGCCCTCAGCGACGAGGAACATGTACTCGGGTGTAT
>New_id3
ATGCTTAATATATTTAATTTGATCTGTATTTTTTTTAATTCTACCCTTTTTTCAAGCACT
TTTTTAGTCGCCAAATTGCCAGAGGCCTACGCCTTTTTGAATCCAATCGTAGATGTTATG
CCCGTAATACCTCTTTTCTTTCTTCTCTTAGCCTTTGTTTGGCAAGCCGCTGTAAGTTTT
CGATAA
>New_id4
ATGCTTACTCTCAAACTTTTTGTATACACTGTAGTTATATTCTTTGTTTCTCTCTTCATA
TTTGGATTCCTATCTAATGATCCAGGACGTAATCCGGGACGTGAAGAATAA
3.ID Prefix(ID添加前缀)
ID prefix可以对序列ID添加需要的前缀信息,这里对上一步重命名后的ID增加前缀"Test-"。
输出结果:
>Test-New_id1
ATGGTAAAACTTCGTTTAAAACGATGTGGTAGAAAGCAACGAGCCGTTTATCGAATCCTT
GCAATTGATGTTCGATACCGAAGAGAAGGAAGAGATCTTAGTAAGGTGGGTTTTTATGAT
CCCATAACTAATCAAACTTTTTTAAACCTTTCTGCTATTCTCGATTTTCTTAAAAAAGGA
GCTCAACCAACAAGAACAGCTCATGATATTTCAAAGAAGGCTGGGATTTTTACGGAATGA
>Test-New_id2
ATGCCAACCATTAAACAACTTATTAGAAATACAAGACAGCCAATCCGAAACGTCACGAAA
TCCCCAGCGCTTCGGGGATGCCCTCAGCGACGAGGAACATGTACTCGGGTGTAT
>Test-New_id3
ATGCTTAATATATTTAATTTGATCTGTATTTTTTTTAATTCTACCCTTTTTTCAAGCACT
TTTTTAGTCGCCAAATTGCCAGAGGCCTACGCCTTTTTGAATCCAATCGTAGATGTTATG
CCCGTAATACCTCTTTTCTTTCTTCTCTTAGCCTTTGTTTGGCAAGCCGCTGTAAGTTTT
CGATAA
>Test-New_id4
ATGCTTACTCTCAAACTTTTTGTATACACTGTAGTTATATTCTTTGTTTCTCTCTTCATA
TTTGGATTCCTATCTAATGATCCAGGACGTAATCCGGGACGTGAAGAATAA
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击