编码机

FDA基于DL的自然语言处理方法,识别定

发布时间:2025/3/24 13:20:50   

编辑

萝卜皮

在药物开发过程中,收集有关药物(对象)由于与另一种药物(沉淀剂)的药代动力学(PK)药物相互作用(DDI)而导致的临床暴露变化的信息至关重要。

虽然已经发布了许多用于DDI的自然语言处理(NLP)方法,但大多数方法旨在评估文本中是否存在(以及何种)DDI关系,而不识别DDI的方向(对象与沉淀药物)。

在这里,美国食品药品监督管理局(FoodandDrugAdministration,FDA)的研究人员提出了一种从文献或药物标签中自动识别PKDDI方向性的方法。

该团队重新注释了文本分析会议(TAC)DDItrack语料库,用于识别PKDDI的方向,并按照TAC预先指定的训练和验证步骤评估了微调BioBERT模型在此任务上的性能。

该研究以「Deeplearning-enablednaturallanguageprocessingtoidentifydirectionalpharmacokineticdrug–druginteractions」为题,于年11月1日发布在《BMCBioinformatics》。

在过去的十年中,人们对开发自然语言处理(NLP)方法以自动从生物医学文献(包括监管药物标签)中提取和处理信息的兴趣激增。正在积极研究的NLP应用之一是自动识别药物相互作用(DDI)。

这是由于潜在DDI的高流行可能导致临床环境中的重大不良事件,以及包含自然语言格式的既定DDI信息的生物医学文档的快速扩展。机器学习技术(尤其是深度学习/神经网络)的最新进展使得从生物医学文档中自动提取DDI成为可能。

一个明显的例子表明需要对DDI信息进行NLP自动化方法,即识别由于其他沉淀药物导致的目标药物临床暴露的变化。这种药代动力学(PK)DDI信息不仅在临床开药时很重要,而且在药物开发过程中也很重要:例如,在评估药物引起QT延长或致心律失常不良事件的可能性时,国际监管指南要求进行临床和非临床研究,以涵盖所谓的高临床暴露情况(定义为在存在内在或外在因素,如肾功能受损、PKDDI等情况下使用药物时的预期暴露量)。

给定特定药物(目标药物),从现有生物医学文献和所有其他药物(沉淀药物)的监管标签中收集可能通过DDI改变目标药物临床暴露的信息,是建立其高临床暴露的重要一步。

图示:关于涉及维拉帕米的药代动力学(PK)药物相互作用(DDI)的一对示例句子。(来源:论文)

目前已经有多项旨在鼓励和评估NLP技术从生化文献和监管药物标签中提取DDI的举措,例如年和年的DDI提取共享任务,以及年和年文本分析会议(TAC)DDI跟踪。各种NLP方法,包括基于句法和词汇特征的传统机器学习方法,以及基于神经网络的深度学习方法,已经在这些举措下进行了评估,并取得了不同程度的成功。

然而,这些现有方法很难应用于自动提取由沉淀药物DDI引起的目标药物临床暴露变化的问题。例如,考虑到「从自然语言文本中识别维拉帕米临床暴露被另一种药物改变的所有DDI」的任务,大多数已发表的方法只能完成句子分类的第一步:筛选文献或产品标签中的所有句子,并识别那些描述涉及维拉帕米的DDI关系的句子。

由于维拉帕米既是细胞色素P酶和P-糖蛋白的抑制剂,又是CYP3A4的底物,因此从第一步中将识别出大量句子,其中维拉帕米可以是客体药物或沉淀药物。因此,在第二步中,大多数句子需要被过滤掉,只留下一小部分具有「正确」方向的DDI句子:那些将维拉帕米描述为目标药物的药物,其临床暴露可以被其他(沉淀剂)药物改变(图1)。

第二步属于命名实体识别(NER)的典型NLP任务。迄今为止,唯一一次解决确定PKDDI方向性的任务是在TACDDI轨道的任务3和4中。在提交方法的四个团队中,只有一个团队尝试了任务4。但是,这些方法似乎并未公开。因此,目前似乎还没有任何已发布的NLP方法可以从自然语言文本中自动识别PKDDI的方向。

在这里,FDA的研究人员报告了通过NLP完成这两个步骤的完整解决方案的开发。该方法基于最先进的预训练神经网络语言模型BERT(Transformers的双向编码器表示)。该团队手动注释了一个语料库来标记对象与沉淀药物,然后对之前发布的BERT模型进行微调,该模型是根据生物医学文献(BioBERT)进行预训练的。

研究人员将所得模型命名为BioBERT_directiveDDI,它旨在按顺序完成两个步骤:首先识别涉及PKDDI的句子,然后标记该句子中的目标药物与沉淀药物。

值得注意的是,该过程的第一步将句子分类为一个关系类别,但没有识别句子中的哪些实体具有这种关系。相比之下,文献中的关系提取(RE)任务通常识别与句子中的实体相关的关系类别,并对实体进行预先识别和匿名化。这使得这里的句子分类任务(第一步)与RE任务相似,即识别关系类别,但识别该关系涉及哪些实体不是任务的一部分。该程序的第二步将完成此NER任务。

图示:训练和验证流程。(来源:论文)

研究人员使用传统的分类性能指标(例如精度和召回率)以及F分数来评估模型的准确性。根据TACDDI轨道预先指定的验证数据集,该模型在识别PKDI句子(第一步)方面的F分数为0.82,在识别对象药物与沉淀药物(第二步)方面的F分数为0.97。

值得注意的是,该神经网络的最后一层是softmax层,它将产生输入样本属于每个类别的概率。例如,在第一步之后,每个句子将被分配一个概率X(0??X??1)属于「PK-DDI」类别,1-X属于「其他或无DDI」类别。由于X是连续变量,理论上可以使用接受者操作特征(ROC)曲线来说明整个可能分类阈值范围(即X的范围)的性能,并选择一个阈值以获得最大性能。研究人员使用了一种更简单的「最大参数」方法,本质上将X的分类阈值固定为0.5,因为这种方法广泛应用于采用神经网络进行分类的机器学习文献中。

总之,该模型能够在制定心脏安全国际指南期间有效评估一些参考药物的高临床暴露,预计将在药物开发活动中发挥重要作用,在药物开发活动中,有必要收集由于DDI与其他沉淀药物引起的特定药物临床暴露变化的信息。

论文链接:

转载请注明:http://www.aideyishus.com/lkcf/8158.html

------分隔线----------------------------