当前位置: 编码机 >> 编码机发展 >> CVPR2024FairCLIP首个多模
作者
哈佛大学、纽约大学团队
编辑
ScienceAI
公平性在深度学习中是一个关键问题,尤其是在医疗领域,这些模型影响着诊断和治疗决策。尽管在仅限视觉领域已对公平性进行了研究,但由于缺乏用于研究公平性的医疗视觉-语言(VL)数据集,医疗VL模型的公平性仍未被探索。
为了弥补这一研究空白,我们介绍了第一个公平的视觉-语言医疗数据集(FairVLMed),它提供了详细的人口统计属性、真实标签和临床笔记,以便深入检查VL基础模型中的公平性。
使用FairVLMed,我们对两个广泛使用的VL模型(CLIP和BLIP2)进行了全面的公平性分析,这些模型在自然图片和医疗图片领域都有预训练,涵盖了四个不同的受保护属性信息。
我们的结果突出显示了所有VL模型中的显著偏见,亚洲人、男性、非西班牙裔和西班牙语者分别是种族、性别、族裔和语言这些受保护属性中的首选组别。为了减轻这些偏见,我们提出了FairCLIP,一种基于optimal-transport的方法,通过减少整体样本分布与每个人口统计组之间的Sinkhorn距离,实现了性能和公平性之间的有利折衷。
作为首个研究公平性的VL数据集,FairVLMed对研究模型公平性实现既具有伦理意识又在临床上有效的机器学习模型的潜力。
在这里分享一篇哈佛大学和纽约大学研究团队的CVPR论文:「FairCLIP:HarnessingFairnessinVision-and-LanguageLearning」。
在本次工作中,我们提出了开创性的关于多模态视觉语言大模型的公平性的研究,针对这项研究我们收集了第一个带有公平性族裔指标的视觉语言医疗大型数据集,并且提出了针对视觉语言预训练的方法FairCLIP来尝试提升不同组别的公平性(让不同组别的准确率接近)。