编码机

不到1000步微调,将LLaMA上下文扩

发布时间:2024/9/13 13:31:52   

机器之心报道

编辑:陈萍

增加大语言模型处理上下文窗口的能力,Meta有妙招。

在大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重要评估指标。

比如OpenAI的gpt-3.5-turbo提供16ktoken的上下文窗口选项,AnthropicAI的更是将Claude处理token能力提升到k。大模型处理上下文窗口是个什么概念,就拿GPT-4支持32ktoken来说,这相当于50页的文字,意味着在对话或生成文本时,GPT-4最多可以记住50页左右内容。

一般来讲,大语言模型处理上下文窗口大小的能力是预定好的。例如,MetaAI发布的LLaMA模型,其输入token大小必须少于。

然而,在进行长对话、总结长文档或执行长期计划等应用程序中,经常会超过预先设置的上下文窗口限制,因而,能够处理更长上下文窗口的LLM更受欢迎。

但这又面临一个新的问题,从头开始训练具有较长上下文窗口的LLM需要很大的投入。这自然引出一个疑问:我们能否扩展现有的预训练LLM的上下文窗口?

一种直接的方法是对现有的预训练Transformer进行微调,以获得更长的上下文窗口。然而,实证结果表明,使用这种方式训练的模型对长上下文窗口的适应速度非常慢。经过00个批次的训练后,有效上下文窗口的增加仍然非常小,仅从增加到(实验部分的表4可以看出)。这表明这种方法在扩展到更长的上下文窗口上效率低下。

本文中,来自Meta的研究者引入了位置插值(PositionInterpolation,PI)来对某些现有的预训练LLM(包括LLaMA)的上下文窗口进行扩展。结果表明,LLaMA上下文窗口从2k扩展到32k,只需要小于0步的微调。

论文

转载请注明:http://www.aideyishus.com/lkyy/6851.html

------分隔线----------------------------