zl程序教程

您现在的位置是:首页 >  大数据

当前栏目

JCIM|对偶异构图神经网络预测miRNA-药物关联

神经网络 关联 预测 药物 异构 JCIM 对偶 miRNA
2023-06-13 09:16:59 时间

2022年11月23日,中南大学邓磊、南京工业大学刘辉等人[1]在Journal of Chemical Information and Modeling上发表文章Dual-Channel Heterogeneous Graph Neural Network for Predicting microRNA-Mediated Drug Sensitivity。作者提出了基于对偶异构图神经网络的表示学习方法来预测miRNA-药物相关性(Dual-Channel Heterogeneous Graph Neural Network for Predicting MicroRNA-Drug Associations,DGNNMDA)。

该网络通过整合miRNA相似性网络、药物相似性网络和实验验证的miRNA药物敏感性关联,开发了一个双通道异构图神经网络模型,在同构和异构节点之间执行特征传播,学习表达miRNA和药物节点的表示。

源代码和数据集可在GitHub上下载

https://github.com/19990915fzy/DGNNMDA

背景

许多研究证实,microRNA(miRNA)能够影响细胞对药物的敏感性。MiRNA是作为克服耐药性的一种有前途的治疗靶点。然而到目前为止,只有少数miRNA-药物相关性被发现,因此,使用计算方法预测更多潜在的miRNA-药物相关性是必要的。与实验方法相比,计算方法,尤其是机器学习算法,在检测潜在的miRNA-药物关联方面更高效。

方法

MiRNA-药物关联(MicroRNA-Drug Associations,MDA)预测问题可建模为如下的数学问题。

假设现有m种miRNA和d种药物,miRNA相似度矩阵是m阶矩阵Sm,药物相似度矩阵是d阶矩阵Sd,关联矩阵是m×d的矩阵A,其中Aij=0或1分别表示第i种miRNA和第j种药物的关联未被证实或者已被证实。由于只有少数miRNA-药物相关性被发现,因此矩阵A中0的数量远大于1,也就是负样本数远大于正样本。

MDA预测问题是,已知Sm, Sd, A,求解一个m×d的矩阵Y,对所有miRNA-药物对(i,j),0<yij<1给出它们相关性的一个打分,打分越高,则说明其越可能有相关性。对所有aij=0(生物学实验未证实有相关)的mirna-药物对,yij分数即代表算法预测其相关性的概率。我们也可以给这个概率设一个阈值(一般是0.5),大于该阈值即认为其有关,否则认为其无关。

作者从NoncoRNA[2]和ncDR数据集[3]中收集了431种miRNA和140种药物的2049条关联信息。MiRNA的相似度由Levenshtein距离[4][5]计算,药物的相似度为基于MACCS指纹的Tanimoto相似度。在miRNA相似度矩阵中,对第k种miRNA,选取与其相似度排名前25的miRNA (j1, j2, …, j25),将Sm(k,j1), Sm(k,j2),…,Sm(k,j25)设为1,否则为0;在药物相似度矩阵中,对第k种药物,选取与其相似度排名前10的药物,类似设置。这样,共得到7812条miRNA-miRNA关联和1333条药物-药物关联。通过矩阵Sm, Sd, A,可构建由m+d个节点组成的miRNA-疾病的异构图,其邻接矩阵为

图1显示了模型对于每个miRNA-药物输入样本,输出表示相关度可能性的预测得分。

图1. DGNNMDA模型

总体而言,模型包括三个步骤:节点编码和映射到特征空间,异构环境下的图表示学习和关联预测。

首先,miRNA和药物特征(即相似性向量)被使用PCA降维以映射到相同维度的特征空间。接下来,在miRNA-药物异构图上运行节点表示学习的图神经网络,进行图采样和聚合(Graph SAmple and aggreGatE,GraphSAGE)[6],以纳入相似性同构节点与关联之间的信息,以及异构节点之间的信息。最后,miRNA使用学习到的miRNA和药物表示来预测miRNA与药物之间的关系。MiRNA-药物对的相关性分数,是其各自表示向量的点积分数的sigmoid函数值。

结果

如上所述的MiRNA-药物关联预测建模方法,将生物实体关联预测问题建模为基于图和网络分析的矩阵优化问题,并通过机器学习或深度学习算法加以解决。这一建模方法在生物实体关联预测(例如miRNA-疾病关联预测,ncRNA-蛋白质关联预测,药物-疾病关联预测等等)上具有普适性,提出用于预测某一种关联的模型也容易推广到其他的关联预测任务上。因此,作者采用五折交叉验证,将DGNNMDA与如下的生物实体关联预测模型进行对比。

GANLDA[7]是一个基于图注意力网络来推断lncRNA-疾病关联的模型。

LGCMDS[8]使用LightGCN,仅保留GCN的邻域聚集预测miRNA-药物关联。

LAGCN[9]构建了图注意力异构网络预测药物-疾病关联。

ABHMDA[10]采用Adaboost预测微生物-疾病之间的关联。

SDLDA[11]组合奇异值分解和深度学习预测lncRNA-疾病关联。

DMFCDA[12]利用深度矩阵分解进行circRNA-疾病关联预测。

KATZMDA[13]基于KATZ模型预测miRNA-疾病关联。

对所有miRNA-药物对,Yij分数即代表算法预测其相关性的概率。也可以给这个概率设一个阈值(一般是0.5),大于该阈值即认为其有关,否则认为其无关。由于miRNA-药物关联预测是类别不均衡的预测问题(负样本远远多于正样本),因此仅使用准确率(accuracy)难以全面评估模型的性能,还要使用精确率(precision),召回率(recall),F1分数等指标。此外,对于输出的概率,可以使用其围成的ROC曲线或者PR曲线下的面积(AUC或AUPR)量度模型的性能。如表1和图2所示,除了在精确率上略低于GANLDA以外,作者提出的DGNNMDA在各个指标上均超越了现有模型。

表1. 不同方法对比

图2. ROC曲线

模型有两个关键的参数:图神经网络的层数和PCA降维的维度数。作者验证了模型在不同参数下的AUC值,确定当PCA维度为16,图神经网络层数为2时的效果最好,如图3所示。

图3. 超参数调整

为进一步检验模型发现未知的miRNA-药物关联的能力,作者进行了案例分析(case studies)。作者考察在原数据集中未包含的、但却被DGNNMDA预测出与紫杉醇(Paclitaxel)相关的前10种miRNA,其中有7种已被新近的文献发现确认,如表2所示。

表2. 案例分析

总结

本文提出了一种新的计算方法来预测miRNA-药物相关性,开发了一个对偶通道异构图神经网络学习模型,学习miRNA和药物的潜在表示。通过编码并将miRNA和药物映射到相同的空间,模型在同构节点上运行了特征聚合,接着再通过多层图中的异构邻居节点聚合以获得节点嵌入。该方法取得了优异的性能。

参考资料

[1]Deng et al. Dual-Channel Heterogeneous Graph Neural Network for Predicting microRNA-Mediated Drug Sensitivity. J. Chem. Inf. Model. 2022

[2]Li et al. NoncoRNA: a database of experimentally supported non-coding RNAs and drug targets in cancer. J. Hematol. Oncol. 2020

[3]Dai et al. ncDR: a comprehensive resource of non-coding RNAs involved in drug resistance. Bioinformatics 2017

[4]Griffiths-Jones et al. miRBase: microRNA sequences, targets and gene nomenclature. Nucleic Acids Res. 2006

[5]Navarro, G. A Guided Tour to Approximate String Matching. ACM Comput. Surv. 2001

[6]Velickovic et al. Inductive Representation Learning on Large Graphs. NeurIPS 2017

[7]Lan et al. GANLDA: Graph attention network for lncRNA-disease associations prediction. Neurocomputing 2021

[8]Yu et al. LGCMDS: Predicting miRNA-Drug Sensitivity based on Light Graph Convolution Network. IEEE BIBM. 2021

[9]Yu et al. Predicting drug−disease associations through layer attention graph convolutional network. Brief. Bioinform. 2020

[10]Peng et al. Human Microbe-Disease Association Prediction Based on Adaptive Boosting. Front. Microbiol. 2018

[11]Zeng et al. SDLDA: lncRNA−disease association prediction based on singular value decomposition and deep learning. Methods 2020

[12]Lu et al. Deep matrix factorization improves prediction of human circRNA-disease associations. IEEE J. Biomed. Health Inform. 2021

[13]Qu et al. KATZMDA: Prediction of miRNA-disease associations based on KATZ model. IEEE Access 2018

--------- End ---------