单个Transformer信息检索,谷歌_编码机介绍

当前位置： 编码机 >> 编码机介绍 >> 单个Transformer信息检索,谷歌

单个Transformer信息检索,谷歌

发布时间:2024/12/2 12:54:24

选自arXiv

作者：YiTay等

机器之心编译

编辑：陈萍

谷歌提出基于Transformer的可微文本检索索引，明显优于双编码器模型等强大基线，并且还具有强大的泛化能力，在零样本设置中优于BM25基线。

信息检索(InformationRetrieval,IR)从互联网诞生之日起，便有着不可撼动的地位。如何从海量数据中找到用户需要的信息是当前研究的热点。目前比较流行的IR方法是先检索后排序（retrieve-then-rank）策略。在检索算法中，比较常用的是基于反向索引或最近邻搜索，其中基于对比学习的双编码器(dualencoders，DE)是目前性能最优的模型。

近日，谷歌研究院在论文《TransformerMemoryasaDifferentiableSearchIndex》中提出了一种替代架构，研究者采用序列到序列(seq2seq)学习系统。该研究证明使用单个Transformer即可完成信息检索，其中有关语料库的所有信息都编码在模型的参数中。

该研究引入了可微搜索索引（DifferentiableSearchIndex，DSI），这是一种学习文本到文本新范式。DSI模型将字符串查询直接映射到相关文档；换句话说，DSI模型只使用自身参数直接回答查询，极大地简化了整个检索过程。

此外，本文还研究了如何表示文档及其标识符的变化、训练过程的变化以及模型和语料库大小之间的相互作用。实验表明，在适当的设计选择下，DSI明显优于双编码器模型等强大基线，并且DSI还具有强大的泛化能力，在零样本设置中优于BM25基线。

论文链接：

转载请注明:http://www.aideyishus.com/lkyy/7303.html

------分隔线----------------------------

上一篇文章：怎样才能获得亚马逊UPC码如何使用
下一篇文章：没有了

热点文章

BampWPI7突破真无线耳机的功能

单个Transformer信息检索,谷歌

最新文章

热点文章

推荐文章