当前位置: 编码机 >> 编码机发展 >> 评分高达926谷歌AI医疗大模型重
“AI医生”,离我们越来越近了。
7月1日,谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究,不仅提出了MultiMedQA(美国医师执照试题)评估基准,用于评估大语言模型在编码临床知识方面的表现,还详解了谷歌医疗大模型Med-PaLM的进化过程。
最终的研究结果显示,一组临床医生对谷歌和DeepMind团队的医疗大模型Med-PaLM回答的评分高达9.6%,与现实中人类临床医生的水平(9.9%)相当。此外,Med-PaLM仅5.9%的答案被评为可能导致“有害”结果,与临床医生生成的答案(5.7%)的结果相似。
尽管如此,该研究团队承认,鉴于现实医学领域的复杂性,在Med-PaLM实现大规模应用前,仍需克服不少限制。
谷歌医疗大模型Med-PaLM几乎可媲美人类医生在这篇最新的《自然》论文中,谷歌和DeepMind科学家团队介绍了全新的MultiMedQA评估基准,专门用于评估大语言模型在编码临床知识方面的表现。
该基准结合了六个现有医疗问答数据集(MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA和MMLU),涵盖专业医学、研究和消费者查询等多个方面,以及一个全新的在线搜索医疗问题库数据集HealthSearchQA,力图从多方面把AI培养成一名合格的医生。
此外,该团队提出了一个基于人类评估的框架模型,该模型包括多个维度,例如事实、理解、推理,以及可能的偏见。
该团队在MultiMedQA上对拥有亿参数的谷歌大型语言模型PaLM(PathwaysLanguageModel)及其变体Flan-PaLM进行了评估。
在实验中,研究人员采用了提示策略组合,Flan-PaLM在每个MultiMedQA多选题数据集上都达到了极高的准确率,其中在MedQA(美国医学执照考试类型问题)上的准确率为67.6%,比之前的技术水平高出17%以上。
图片来源:《自然》
论文指出,虽然Flan-PaLM在MedQA的多项选择题上表现出色,但它对病人医疗问题的回答却暴露出关键的差距。为了解决这个问题,谷歌科学家团队提出了指令提示调整,让Flan-PaLM进一步与医学接轨,产生了Med-PaLM。
在评估中,Med-PaLM表现令人鼓舞,一组临床医生对其回答的评分为9.6%,与现实中临床医生的水平(9.9%)相当。
图片来源:《自然》
除了专家评估,研究团队还邀请了五名非医学领域专家(印度的非医学背景普通人)来评估答案。
结果显示,Flan-PaLM给出的答案在60.6%的案例中被认为是有用的,而Med-PaLM给出的答案准确度则增加到80.3%。同样,在90.8%的情况下,Flan-PaLM的答案被判断为直接解决了病人提出的问题,而Med-PaLM将这一比例提高到了94.4%,人类临床医生这一比列则在95.9%。换句话说,在直接解决病人问题方面,Med-PaLM几乎可以和人类临床医生的能力相媲美。
图片来源:《自然》
论文称,虽然这些结果非常令人鼓舞,但现实中的医学领域是相当复杂的。因此,还有必要对该大语言模型进行进一步评估,特别是在安全性、公平性和偏见方面。在将这些模型运用到临床应用之前,还有许多限制需要克服。研究人员预计最新的这项研究将激发患者、消费者、AI研究人员、临床医生、社会科学家、伦理学家、政策制定者和其他利益相关方之间进一步对话和合作,从而负责任地将这些早期研究成果转换为真正的现实应用。
但不可否认的是,谷歌科学家团队的研究表明,随着模型规模的扩大和提示词的调整,其理解能力、知识回忆和推理能力均有所提高,这表明大语言模型在医学领域具有潜在的实用性。此外,研究团队的人类评估也揭示了当今大语言模型的局限性,也强调了评估框架和方法在为临床应用创建安全、有用的大语言模型方面的重要性。
AI医疗市场五年内或破千亿美元,科技巨头纷纷布局基础模型和大语言模型的出现为医学AI的发展提供了助力。《每日经济新闻》记者注意到,其实除了谷歌和其旗下的DeepMind外,微软、IBM等科技大厂一直在持续
转载请注明:http://www.aideyishus.com/lktp/7498.html