当前位置: 编码机 >> 编码机市场 >> 端到端问答新突破百度提出RocketQA
机器之心发布
机器之心编辑部
开放域问答(Open-domainQA)一直是自然语言处理领域的重要研究课题。百度从面向端到端问答的检索模型出发,提出了RocketQA训练方法,大幅提升了对偶式检索模型的效果,为实现端到端问答迈出了重要的一步。RocketQA已逐步应用在百度搜索、广告等核心业务中,并将在更多场景中发挥作用。
近日,百度提出了面向端到端问答的检索模型训练方法RocketQA,该方法针对模型训练中存在的问题,通过跨批次负采样(cross-batchnegatives)、去噪的强负例采样(denoisedhardnegativesampling)与数据增强(dataaugmentation)等技术,大幅提升了对偶式检索模型的效果。RocketQA不仅在多个问答相关数据集中取得了SOTA,同时也刷新了微软MSMARCO数据集段落排序任务的榜单,超越谷歌、微软、Facebook、阿里、美团、卡内基梅隆大学、清华大学、滑铁卢大学等企业和高校位居第一,为实现“端到端问答”迈出了重要的一步。
论文名称RocketQA:AnOptimizedTrainingApproachtoDensePassageRetrievalforOpen-DomainQuestionAnswering