zl程序教程

您现在的位置是:首页 >  其他

当前栏目

生信爱好者周刊(第 9 期):统计建模之道和术

2023-03-20 14:43:09 时间

生信科技动态

1、Nature|可解释深度学习用基因组图谱预测前列腺癌转移状态

麻省理工学院、哈佛大学等高校联合在Nature发表了Biologically informed deep neural network for prostate cancer discovery。该研究提出可解释深度学习P-NET模型,该模型能够在前列腺癌症患者基因属性的基础上结合生信中的层次信息预测癌症的状态。

P-NET的生物学可解释性揭示了已建立的基因与新基因变异的相关候选基因,如MDM4和FGFR1,这些基因与预测晚期疾病有关,并在体外进行验证。

广泛的来说,生物学上知情的完全可解释的神经网络使前列腺癌的临床前发现和临床预测成为可能,并可能在各种癌症类型中具有普遍的适用性。

2、Transformer新玩法登Nature子刊:DeepMind用新变体读取DNA长序列,瞄准遗传病高发区域

DeepMind与谷歌旗下生物科技公司 Calico 的一项研究登上了国际顶级方法学期刊Nature Methods。在这篇论文中,他们引入了一种叫做 Enformer 的神经网络架构,大大提高了根据 DNA 序列预测基因表达的准确性。为了进一步研究疾病中的基因调控和致病因素,研究者还公开了他们的模型及其对常见遗传变异的初步预测。

3、国家生物信息中心在核酸研究发表单细胞DNA甲基化数据库—scMethBank

DNA甲基化是表观遗传研究的一个重要层面,且与发育、衰老和疾病的发生发展密切相关。为了更好地利用已公开的海量甲基化数据,此前,中国科学院北京基因组研究所国家基因组科学数据中心(以下简称基因组数据中心)已经发布了一个DNA甲基化的综合性数据库MethBank(https://ngdc.cncb.ac.cn/methbank/),涵盖了多物种高质量的全基因组单碱基精度甲基化图谱、健康人参比甲基化组以及人工审编的甲基化分析工具集。这里,我们介绍基因组数据中心最新发布的单细胞甲基化数据库——scMethbank(https://ngdc.cncb.ac.cn/methbank/scm/)。

该项研究成果以scMethBank: a database for single-cell whole genome DNA methylation maps为题于2021年9月在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。

文章

1、R使用正则表达式匹配任何模式的初学者指南[5]

正则表达式只不过是匹配文本或文本文件中的模式的字符序列。在许多编程语言中,它被用于文本挖掘。在所有语言中,正则表达式的字符都非常相似。但在不同的语言中,提取、定位、检测和替换的功能是不同的。本文介绍在R中如何使用和操作正则表达式。

2、使用Python的XGBoost参数调优完整指南[6]

XGBoost算法已经成为许多数据科学家的终极武器。这是一种高度复杂的算法,强大到足以处理各种不规则数据。使用XGBoost构建模型很容易。但是,使用XGBoost改进模型是困难的。该算法使用多个参数。为了改进模型,必须进行参数优化。很难回答一些实际问题,比如:应该调优哪一组参数?为了获得最佳输出,这些参数的理想值是多少?

3、R-操作数据库[7]

本文介绍如何通过RSQLite操作关系型数据库。

4、usethis包新增`pr_*`系列函数[8]

工具

1、r-script[9]

一个简单的小模块,用于将数据从NodeJS传递给R(并返回)。

2、RestRserve[10]

RestRserve是一个R web API框架,用于构建高性能和健壮的微服务和应用后端。在类unix系统上使用Rserve后端,它被设计成并行的。

3、ggh4x[11]

ggh4x包是ggplot2扩展包。它提供了一些实用功能,这些功能并不完全符合“图形语法”的概念——它们可能有点笨拙——但在调整你的ggplot时仍然有用。示例包括调整facet的大小,将多种美学映射到颜色,以及为facet指定单独的比例。除此之外,它也是geoms, facets, positions, guides和stats的集合。

4、r-codespaces[12]

GitHub代码空间配置的R和Shiny。

参考资料

[1]

ShixiangWang/weekly: https://github.com/ShixiangWang/weekly

[2]

《谁在招人?》: https://github.com/ShixiangWang/weekly/issues/2

[3]

「本期专用讨论区」: https://github.com/ShixiangWang/weekly/issues/258

[4]

via: https://www.guoyi360.com/tj/tjt/12_5.html

[5]

R使用正则表达式匹配任何模式的初学者指南: https://regenerativetoday.com/a-beginners-guide-to-match-any-pattern-using-regular-expressions-in-r/

[6]

使用Python的XGBoost参数调优完整指南: https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

[7]

R-操作数据库: https://shixiangwang.github.io/home/cn/post/2019-11-20-r-operate-database/

[8]

usethis包新增pr_*系列函数: https://www.garrickadenbuie.com/blog/pull-request-flow-usethis/

[9]

r-script: https://github.com/joshkatz/r-script

[10]

RestRserve: https://github.com/rexyai/RestRserve

[11]

ggh4x: https://github.com/teunbrand/ggh4x

[12]

r-codespaces: https://github.com/jakubnowicki/r-codespaces