编码机

单个Transformer信息检索,谷歌

发布时间:2024/12/2 12:54:24   

选自arXiv

作者:YiTay等

机器之心编译

编辑:陈萍

谷歌提出基于Transformer的可微文本检索索引,明显优于双编码器模型等强大基线,并且还具有强大的泛化能力,在零样本设置中优于BM25基线。

信息检索(InformationRetrieval,IR)从互联网诞生之日起,便有着不可撼动的地位。如何从海量数据中找到用户需要的信息是当前研究的热点。目前比较流行的IR方法是先检索后排序(retrieve-then-rank)策略。在检索算法中,比较常用的是基于反向索引或最近邻搜索,其中基于对比学习的双编码器(dualencoders,DE)是目前性能最优的模型。

近日,谷歌研究院在论文《TransformerMemoryasaDifferentiableSearchIndex》中提出了一种替代架构,研究者采用序列到序列(seq2seq)学习系统。该研究证明使用单个Transformer即可完成信息检索,其中有关语料库的所有信息都编码在模型的参数中。

该研究引入了可微搜索索引(DifferentiableSearchIndex,DSI),这是一种学习文本到文本新范式。DSI模型将字符串查询直接映射到相关文档;换句话说,DSI模型只使用自身参数直接回答查询,极大地简化了整个检索过程。

此外,本文还研究了如何表示文档及其标识符的变化、训练过程的变化以及模型和语料库大小之间的相互作用。实验表明,在适当的设计选择下,DSI明显优于双编码器模型等强大基线,并且DSI还具有强大的泛化能力,在零样本设置中优于BM25基线。

论文链接:

转载请注明:http://www.aideyishus.com/lkyy/7303.html

------分隔线----------------------------