[ICLR | 论文简读] OntoProtein:用基因本体论嵌入的蛋白质预训练
2023-02-18 16:48:02 时间
简读分享 | 赵晏浠 编辑 | 龙文韬
论文题目
OntoProtein: Protein Pretraining With Gene Ontology Embedding
论文摘要
自监督的蛋白质语言模型已经证明了其在学习蛋白质表征上的有效性。随着计算能力的提高,目前的蛋白质语言模型在经过数百万不同序列的预训练后,可以将参数规模从百万级提高到十亿级,并取得显著的改善。然而,这些流行的方法很少考虑纳入知识图谱(KGs)1,而知识图谱可以为更好的蛋白质表征提供丰富的结构化知识事实。作者认为,KGs中丰富的生物学知识可以用外部知识来增强蛋白质的表示。在这项工作中,作者提出了OntoProtein,这是第一个利用GO(Gene Ontology)中的结构进入蛋白质预训练模型的通用框架。作者构建了一个新的大规模知识图谱,它由GO及其相关的蛋白质组成,基因注释文本或蛋白质序列描述了图谱中的所有节点。作者提出了具有知识意识的负采样的新型对比学习,以在预训练期间共同优化知识图和蛋白质嵌入。实验结果表明,OntoProtein在TAPE基准中可以超过最先进的预训练蛋白质语言模型的方法,并且在蛋白质-蛋白质相互作用和蛋白质功能预测中与基线相比产生更好的性能。
论文链接
https://iclr.cc/virtual/2022/poster/6505
github链接
https://github.com/zjunlp/OntoProtein
相关文章
- MyISAM 和 InnoDB 的区别
- cookie 和 session 的区别
- Adobe Acrobat Pro DC 2019.021.20061免激活中文特别版pdfb编辑器下载
- async + await 的理解和用法(Promise)
- 运营商三要素实名认证接口(姓名、身份证号、手机号)
- 2022-12-16:给你一个长度为n的数组,并询问q次 每次询问区间[l,r]之间是否存在小于等于k个数的和大于等于x 每条查询返回true或者false。
- Metaverse、Web3 和 NFT 的必然性
- STM32使用硬件I2C读取SHTC3温湿度传感器并显示在0.96寸OLED屏上
- STM32单片机读取AHT10温湿度传感器数据
- 大数据Kudu(四):Kudu集群搭建
- 指点云 宿迁 12900K高防云服务器 性能测评,4核8G 10兆 150G防御 仅需160元/月
- STM32软件I2C读取AM2320温湿度传感器数据
- 自从用了灰度发布,睡觉真香!
- Spring Cloud 最新版发布,Spring Security + OAuth2 终于安排上了!
- Spring 6.0 正式发布,新王登基!!
- Spring Boot 3.0 正式发布,王炸!!
- 你还只会用 AtomicXXX ?!恭喜你,可以下岗了!
- 牛逼啊,ChatGPT 能接入微信了!
- Nacos 2.2 正式发布,这次更新太炸了!
- 经验分享:如何开发一个成功的 NFT 项目,社区建设技巧