当前位置: 编码机 >> 编码机市场 >> 机器学习方法及其在药物发现中的发展趋势
药物发现的目的是寻找治疗疾病的具有特殊化学性质的新化合物。目前新药的发现和开发仍然是一个漫长而昂贵的过程,平均时间为10到15年。随着精准医学计划的开展,机器学习(ML)技术在药物发现领域得到了很大的重视,急剧降低了新药发现的成本和研究时间。ML是人工智能(AI)的一个分支,旨在开发和应用从原始数据中学习的计算机算法,以便后续执行特定任务。
今天给大家介绍的是ComputationalandStructuralBiotechnologyJournal杂志于年8月发表的综述《AreviewonMachineLearningapproachesandtrendsindrugdiscovery》。第一作者为PaulaCarracedo,西班牙拉科鲁尼亚大学。
机器学习方法
ML方法论在任何研究领域的应用都是横向的,意思是所有领域在实验设计中都有相同的步骤。具体地说,药物发现的ML方法可以分为以下5个步骤:数据收集、数学描述符的生成、搜索变量的最佳子集、模型训练和模型验证,如图1所示。
图1药物发现中常用的机器学习方法
第一步是获取有特征的数据集,这些数据要求包括有助于吸收、特异性和低毒性的物理化学特性,以及易于在实验室生产和处理的特性。为了简化对这些化合物的处理和分析,分别使用SMILES和FASTA格式来表示小分子和肽的序列和结构。目前,存在许多存储用于药物发现领域数据的公共库,如DrugBank、PubChem、ChEMBL或ZINC。
新的测序技术在产生序列数据(DNA、RNA、蛋白质、小分子等)方面取得了很大进展。化合物序列是药物发现的起点,然后将序列转换成可由ML算法后续寻址的矩阵(图1MATRIX),不同化合物的标签也很重要(图1TARGET),因为在药物发现领域使用有监督学习模型较为常见。
数学描述符生成后,就得到了一组ML模型可以处理的数据。该数据集分为两个子集:较大的专用于训练模型(图1中蓝色),较小的子集用于测试模型(图1中绿色)。在训练集中,用正确和必要的信息搜索变量的最佳子集,尽可能减少无用或多余的变量,不同的技术如PCA、t-SNE、FS、自动编码器等。
一旦找到了变量的最佳子集,就对模型进行训练。首先,必须选择算法及其参数,常见的技术如交叉验证(CV),在实验执行过程中,原始数据集被再次划分为两个子集:训练集和验证集。图1展示了CV技术的10次运行,其中蓝色集合对应于训练集,红色集合对应于验证集。最终根据得到的最佳参数组合对每种模型的性能进行测量,最好的模型以最低成本实现最高性能价值。
最后,恢复从原始集合中提取的测试集(图1中绿色),并执行由CV过程产生的最佳模型的最终验证过程。如果验证结果具有统计学意义,则可以说已经创建了一个新的预测性药物模型。
机器学习用于分子表示
模型训练的关键一步依赖于分子的表示,这些表示需要捕捉分子的属性和结构特征,总的来说可以分为以下几类。
2.1定量构效关系(QSAR)
在“分子结构决定其生物活性”和“结构相似的分子结构具有相似的生物活性”的前提下,QSAR可以通过数学系统,根据已知的化学结构和现有的实验研究,预测新化合物的理化和生物性质。QSAR在数值上将分子的化学结构与其生物活性联系起来。
要进行QSAR研究,需要三种类型的信息:一是具有共同作用机制的不同化合物的分子结构,二是每个配体的生物活性数据,最后是由一组数值变量描述的物理化学性质,由计算技术虚拟生成的分子结构获得。
2.2分子描述符(MD)
MD在许多研究领域中起着关键作用,它们可以被定义为定量描述其物理化学信息的分子的数值表示。人们已经定义了数以千计的分子描述符,它们以不同的方式对分子进行编码。从应用角度可以分为两大类:一是实验测量类,如logP、摩尔折射率、偶极矩和极化率;二是包含物理化学性质的理论类,包括结构、拓扑(它的计算是通过图论完成的)、几何(从经验方案导出,编码分子参与不同类型相互作用的能力)、电子学和物理化学(分子在面对外部反应时的行为)。除此之外,也可以根据维度进行分类,如图2所示。
图2由不同的分子描述符根据其维度编码的信息表示
2.3分子指纹(FP)
FP允许快速而简单地通过固定长度的位链或矢量表示分子结构。这种形式的分子编码对于存储、处理和比较寄宿在包含分子信息的字符串中的数据是非常有效的。然而,来自化学结构的指纹忽略了生物背景,从而在分子结构和生物活性之间留下了鸿沟,因此前者的微小变化就可以产生生物活性的实质性差异。
FP种类繁多,最常用的包括扩展连通性指纹(ExtFP)、MACCS、PubChem指纹、原子对(包括APFP和GraphFP)、CDK、EstateFP和Klekota-Roth等。图3显示了几种方法的使用情况,可以看出,ExtFP指纹在绝对值上是使用最多的,然后是MACCS。
图3常见FP的识别数量
2.4基于图的机器学习算法
绝大多数分子描述符是以数字向量计算和编码的,生成高维矩阵用于经典ML算法,如随机森林、SVM、ANN、NB等。这些算法被设计为处理以矩阵或向量构成的数据,但不能使用以数学图形表示的分子的总信息。分子网络是化合物结构式的图论表示,每个分子用图表示,最近,能够预测特定功能的化学信息学模型的建立是基于从这些分子图中提取的信息,使用的算法是人工神经网络。
与从向量或数值矩阵中提取信息的全连接神经网络(FNN)或卷积神经网络(CNN)等更传统的拓扑结构不同,图形神经网络(GNN)能够从数学图中提取结构信息,最近开始在化学科学中引起极大的
转载请注明:http://www.aideyishus.com/lkjg/1876.html