深蓝学院-GNN课程笔记11-生物化学和医疗健康中的图神经网络

这个系列是深蓝学院图深度学习理论与实践的同步课程笔记。课程内容涉及图深度学习的基础理论与应用,本节主要介绍图神经网络在生物化学中的应用。

化学分子表示学习

在自然科学领域中存在着大量的图结构数据,因此这几年图神经网络的一个研究热点在于将图神经网络与自然科学中的问题进行融合。在计算生物化学中,预测信息分子的性质对于材料设计和药物发现都具有智能工业的意义。由于分子具有天然的图结构,我们可以将分子中的原子视为图的节点,原子之间的键视为图的边以此构造出图。通过图池化可以获得整个分子的嵌入,进而对分子性质进行预测。

蛋白质相互作用界面预测

蛋白质是具有生化功能的氨基酸链。每个蛋白质为了实现它们的功能需要与其它蛋白质相互作用,而预测这些相互作用发生的界面是一个比较困难的任务。蛋白质相互作用界面由相互作用的蛋白质中的氨基酸残基和附近的氨基酸残基组成,因此蛋白质相互作用界面的预测问题可以建模成一个以来自不同蛋白质的一对氨基酸残基作为输入的二分类问题。

对给定的一对氨基酸残基,蛋白质相互作用界面预测的任务是判断这两个残基是否在蛋白质相互作用界面上。每个样本时一对氨基酸残基,我们首先利用GNN来提取氨基酸残基的节点表示,然后将它们合并并输入到全连接层中进行预测即可完成分类任务。

药物-蛋白质结合亲和性预测

药物-蛋白质相互作用的识别对于所需后续药物的搜索范围直观重要。类似于上面介绍过的化学分子表示学习和蛋白质相互作用界面预测,我们可以将药物的分子式利用图神经网络来表示从而获得整个分子的嵌入,而对于蛋白质则可以利用序列模型或者图神经网络来获得蛋白质的表示。得到它们的特征向量后将两个特征向量拼接起来再利用全连接层进行预测即可。

复方药物副作用预测

许多疾病不能够只通过单一的药物进行治疗,而是需要同时使用若干种药物。因此预测复方药物的副作用对于疾病治疗策略的制定有着重要的意义。研究表明,联合用药通常比随机配对的药物具有更多的靶蛋白,这意味着药物与靶蛋白直接的相互作用对复方药物建模有着重要意义。我们可以通过图神经网络引入药物-药物相互作用、药物-蛋白质相互作用以及蛋白质-蛋白质相互作用的多模态图,然后通过预测不同药物之间是否存在边以及存在何种类型的边来预测可能出现的副作用。

疾病预测

医疗数据通常包括图像、遗传和患者的行为数据,这些数据相互补充可以提高医生预测疾病的准确率。对于这些不同类型的数据,图提供了一种直观的方式来建模它们的关系。对于医疗图像数据,我们可以利用CNN来提取图像特征;而对于其它类型的则通过图神经网络来提取信息。最后我们把受试者作为图的节点,图像作为节点特征,受试者之间的关系作为图的边,这样整个疾病预测任务就可以看做是一种办结的节点二分类任务。