编码机

BIB基于知识的BERT像计算化学家一样

发布时间:2022/11/13 15:26:41   

今天给大家讲一篇侯廷军教授团队年4月发表在BriefingsinBioinformatics上基于bert模型做分子性质预测的一篇文章,作者提出了一种K-BERT模型,它通过Smiles表示来提取化合物结构信息,并利用基于原子特征预测、分子特征预测和对比学习的三种预训练任务,在15个药物数据集上的表现优于基于图的模型以及基于描述符的模型,可以看出K-BERT在分子性质预测中的巨大潜力。

研究背景

基于机器学习算法的分子性质预测模型已经成为在药物发现中对候选药物进行挑选的重要工具。分子性质预测包括如生物活性预测、药物相似性预测和毒性预测,通常通过预定义的分子描述符的固定长度特征向量来表征分子,此外,基于图的模型可以自动学习特定任务中分子中每个原子的表示,从而在一定程度上避免了人工提取描述符时与任务相关的信息的损失。

模型框架

2.1预训练数据集

CHIRAL1数据集:D4多巴胺受体对接筛选数据的一个子集。CHIRAL1中的每个分子只有一个四面体中心,其手性分为R和S。作者共使用个分子进行预训练。

此外还包括从ADMETlab2.0中收集了15个分子数小于的小药物数据集,Pgp底物(Pgp-sub)、人肠道吸收(HIA)、口服生物利用度等。

2.2基于知识的BERT模型

作者做了三个任务,原子特征预测,分子特征预测以及对比学习任务。第一个任务的目的是预测原子特征。由于原子的特征包括度、芳香性、氢性、手性类型。因此,原子特征预测任务可以看作是一个多任务的分类预测。第二个任务中,通过编码MACCS指纹的方式来预测分子特征表示,第三个任务的目标是最大程度地提高同一分子的不同Smiles串之间的余弦相似性,并最小化不同分子之间嵌入的相似性。

2.3预训练

首先通过RDKit计算出CHEMBL中每个分子的一个Smiles和4个随机产生的Smiles,并用于训练三个任务。大约有万个分子用于预训练K-BERT。此外,K-BERT模型的输入是分子的字符表示如“O”、“Br”和“[C

H]”。

2.4微调阶段

在预训练阶段模型已经学会如何从smiles中提取分子特征。因此,作者在预先训练过的模型前中固定前5个transformer编码器。并重新初始化了第6个编码器和下游任务的全连接层的形式,如图1所示

图1k-bert微调结构

实验结果

3.1下游任务比较

作者通过微调预先训练好的模型迁移到15个下游任务中分别针对基于描述符的方法,基于图的方法进行比较,如图2所示,其中AttentiveFP在小数据集上,同时引入了分子描述符,提高基于图的方法的泛化能力。此外,K-BERT的平均ROC-AUC的结果为0.可以看出在分子性质预测中具有很强的能力。

图2在15个数据集上不同模型的ROC-AUC结果

3.2不同预训练任务表现

分子性质预测是一个表征学习的过程。模型的优异性能取决于它从给定的初始信息中提取与任务相关的特征的能力。对于分子,Smiles可以看作是最简单的初始表示,而分子图和描述符可以看作是由Smiles生成的表示。因此,Smiles隐式地包含了分子图和描述符中的信息,也具有更强的特征提取能力。此外,通过多个smiles来表示同一个分子的增强方法使得模型更好地从Smiles中提取与任务相关的分子特征。作者构建了一个没有对比学习预训练任务(K-BERT-WCL)的K-BERT来进行比较。此外,在KBERT-WCL和K-BERT-WP上都采用了基于Smiles的数据增强策略。如图4所示,可以看出,K-BERT-WP-AUG的性相较于K-BERT-WP提升3.4%,说明数据增强确实可以提高模型的预测能力。

图3在15个数据集上不同模型的预训练策略比较

3.3对比学习表现

对比学习使得语言模型更好地理解smiles表示,作者计算了同一分子分别由K-BERTWCL和K-BERT的不同Smiles产生的嵌入的相似性,通过增强同一分子4次,并使用谷本系数来评估4种不同的Smiles和原始分子之间的相似性,如图4所示,K-BERT的平均嵌入谷本系数为0.,表明对比学习的任务使KBERT能够更好地学习smiles表征,并区分同一分子的不同Smiles。

图4增强Smiles的相似性系数可视化

结论

作者提出了通过K-BERT来提取分子特征并做性质预测任务,同样比较了K-BERT和其他机器学习方法在15个药物发现相关数据集上的性能。结果表明,K-BERT的性能比其他方法更好,表明K-BERT的预训练策略是有效的,并适用于药物发现中的分子性质预测。此外,可以看出预训练以及对smiles排列方式的数据增强可以提高模型从分子中提取分子特征的能力。此外,通过对原子特征预测任务、分子特征预测任务和对比学习任务,以及手性相关任务中体现了K-BERT在药物研发中分子性质预测的实际应用中的巨大潜力。

参考文献

IrwinR,DimitriadisS,HeJ,etal.Chemformer:apre-trainedtransformerfor

转载请注明:http://www.aideyishus.com/lkyy/2276.html

------分隔线----------------------------