在大型语言模型(LLMs)领域,处理长上下文的能力对于诸如多轮对话、代码生成和文档摘要等任务日益关键。本论文解决了增强长上下文性能、降低计算复杂性和利用预训练模型的挑战,这被统称为“不可能之三角”。 作者提出了一种新颖的方法,称为E2LLM(编码扩展型大型语言模型),以有效应对这一悖论。该方法涉及将长上下文分割成小块,通过预训练的文本编码器将这些小块压缩成嵌入向量,并利用 Adapter 将这些表示与仅包含解码器的LLM对齐。 采用了两个训练目标,分别关注编码器输出的重建和长上下文指令的微调,以促进LLM对软提示的理解。实验结果表明,E2LLM在长上下文场景中实现了优越的性能,同时保持了效率、性能和与预训练模型的兼容性。 因此,作者的框架代表了该领域的一个重要进步,为有效的长文本建模做出了贡献。
理解并推理长序列对于大语言模型(LLMs)至关重要,尤其是在像多轮对话、代码生成、多文本文档总结和问答等任务中。这些任务通常需要处理成千或甚至数百万个 Token 以确保连贯性和准确性。另一方面,为了提高LLM的性能,一些能有效促使LLM激活特定领域知识的技术,例如思路推理、上下文学习和检索相关文档或历史对话等,也在推动长序列长度的需求。
已经投入大量努力来开发可以增加LLM上下文长度的模型,旨在在更长上下文中实现强大性能(TI),同时减少训练和推理复杂度(T2),同时与预训练模型兼容(T3),以便有效利用这些模型中的预训练知识。然而,同时实现这三个目标是一项艰巨的任务,通常会导致某些妥协,作者将其称为“不可能的三角”,如下图1所示。
目前,该领域的研究主要集中在三个主要的方向上:修改位置嵌入,注意力机制,以及输入序列本身。
第一组方法被称为 扩展长度,涉及到调整 LLM 的位置嵌入以适应更长的上下文扩展。这通常涉及为 LLM 选择一个大的基本值,然后继续在目标长度上进行预训练或微调。尽管这些方法可以有效地扩展 LLM 的长度,而模型变化最小(_T1&T3_),但它们在训练和推理过程中通常需要大量的计算资源(T2)。例如,即使能够扩展序列长度到 2M,如 LongRoPE Ding 等,在部署模型时仍需巨大的资源,而扩展后的推理时间可能不可容忍。
与第一组方法不同,第二组方法称为 稀疏注意力,用局部注意力或全局与局部注意力的组合替换 LLM 中的完整注意力。这种方法显著降低了完整注意力的二次复杂性,在理论上甚至可以实现线性复杂性(T2)。然而,稀疏注意力的一个显著问题是可能忽视有用的历史信息,因为在注意力计算过程中某些标记可能不会被注意(T1)。另外,由于 LLM 不是用稀疏注意力进行原始预训练的,因此将它们适配到稀疏注意力可能需要广泛的训练或微调(T3)。不同于前面两组改变 LLM 的方式,第三组策略直接压缩输入序列以减少其长度(T2),这可以进一步分为两类。
第一类子组称为 硬提示压缩,例如 Retrieval-Augmented Generation (RAG) Ding 等,江等 (2023),Jiang等人(江等)和Retrieval-Enhanced Generation (REG) Ding 等人 (2024),采用两步压缩和推理的方式。因此,在压缩阶段中任何信息损失或引入不相关内容都可能对后续的推理步骤产生负面影响(T1)。
另一方面,第二类子组考虑 软提示压缩,它将长上下文压缩为嵌入向量。然而,在将这些方法用于直接生成句子层面嵌入时,与原始 next token 预测的目标偏离。因此,在将模型的新能力与新目标对齐方面,实现满意的性能通常需要严格的训练或微调(T3)。
在本文中,作者提出了一个名为E2LLM( Eencoder(编码器 Elongated(延伸)Large(大型)Language(语言)Models(模型)的新型压缩和解压缩方法,它能够灵活地应对"不可能之三角"的复杂性。具体而言,如图2所示,作者的方法首先将长文本分割成多个子块并将每个子块压缩成一个嵌入向量(使用预训练的文本编码器,例如BERT Kenton和Toutanova(2019))。然后,一个 Adapter 将编码器的输出与仅包含解码器的LLM的输入嵌入空间对齐,这样LLM就能够理解编码器产生的嵌入向量。最后,作者建立两个训练目标来对齐编码器和解码器,包括重构编码器给出的软提示(理解)和长时序指令微调(推理)。作者假设LLM天生具有丰富的知识,因此适当压缩的软提示(或嵌入向量)可以简洁地传达足够的信息,以便LLM生成准确的答案。
此外,由于预训练的编码器模型天生地被设计为生成句子嵌入,这种设计使得E2LLM可以充分利用预训练的编码器和解码器,从而最小化了额外的广泛训练。此外,将每个原始子块压缩成向量(即一个单一的子块标记)不仅可以增强训练和推理效率(T2),而且可以显著扩展上下文长度(T1)。事实上,理论序列长度等于编码器和解码器序列长度的乘积。实验结果为E2LLM在长上下文场景下的优越性能提供了有力的证据,证明了作者在性能、效率和兼容性之间保持微妙的平衡的有效方法。
总之,作者的工作的主要贡献包括:
正如引言中所提到的,广泛使用的方法可以分为三类:修改位置嵌入(即,扩展长度),注意力机制(即,稀疏注意力)和输入序列(即,提示压缩)。
扩展长度训练在具有有限的最大序列长度的序列上训练语言模型(LLM),并确保对更长序列的泛化能力是一项具有挑战性的任务。为了解决这个问题,位置外推和插值方法已经提出。位置外推将位置编码扩展到训练长度之外;例如,ALBi 压力等。然而,xPOS等方法(2023)利用相对位置嵌入来获得更好的注意力分辨率和扩展长度。但是,这些方法尚未集成到最近的语言模型实例中,如 Llama2 Touvron 等(2023年)和 Qwen2 Bai 等(2023年),主要是因为位置外推性能不佳。位置插值方法可以将输入位置索引缩减,扩充上下文窗口,以保持对更长序列的性能。例如,Chen 等人(2023 年)将线性插值应用于 RoPE,将最大位置索引与应用约束对齐。 NTK 插值模块等。 97.(2023)修改 RoPE 位置嵌入的基础,调整其维度的旋转速度。为了结合这些方法的优点,YaRN Peng 等(2023 年)使用 ramp 函数和温度因子,将线性和 NTK 插值合并,从而减轻了长输入的注意力矩阵分布转移。 LongRoPE Ding 等人进一步通过利用 RoPE 位置嵌入的两种非均匀性来有效地通过高效进化搜索来提高性能。
尽管有了这些进步,但大多数方法仍需要持续的前预训练或微调以实现所需的序列长度,从而使训练负担变得相当大。此外,这些扩展模型的推理可能很慢,因为全注意力具有二次复杂度。相比之下,所提出的 E2LLM 并未改变原始 LLM 的长度,而是将输入序列压缩成嵌入向量的块。这样,E2LLM 在训练和推理期间能够保持原始 LLM 的效率。
稀疏注意力 此类方法旨在通过使用新的注意力 masks 的注意力机制,降低大型语言模型的推理复杂性(LLMs),使这些模型可以处理更长的序列。在推理过程中,关注序列的开始部分和定义窗口(即局部注意力)内的最最近标记,可以保持性能,同时将计算成本降至线性 Level 。然而,这些无训练方法在各种场景下往往效果不佳。Anagnostidis等人(2023),Lou等人(2024)以及Lou等人(2024)指出,它们可能忽略了序列中的中间有用的标记。为了改进性能,Han等人(2024)重新引入了序列中间的顶部k标记,但是这种方法需要计算所有注意力分数,从而增加了计算需求。为解决这个问题,Lou等人(2024)提出了稀疏k注意力,它使用额外的评分网络来评估每个关键字值对的重要性并选择前k对。另外,LongLoRA Chen等人(2023)使用位移稀疏注意力(局部注意力的一个变体)并且将LLMs适配到这种机制。但是,正如Tan等人(2024)所指出的,稀疏和全注意力之间仍然存在显著的差距,这使得预训练LLMs适应新的注意力范式变得更加复杂。相反,E2LLM方法将长序列输入总结为软提示向量,从而在不改变LLMs全注意力机制的前提下减少序列长度。
提示压缩 提示压缩通过压缩较长的提示(硬提示压缩)或学习紧凑的提示表示(软提示压缩)来提高LLM输入处理的效率。硬提示压缩技术包括RAG Ding等人(2024),LLMlingua Jiang等人(2023),Selective-Context Li (2023),以及LongLLMingua Jiang等人(2023)。RAG通过仅检索与 Query 相关的段落来优化输入。而LLMlingua和Selective-Context压缩长上下文而不参考 Query 。LongLLMlingua通过使用问题感知的粗粒度到细粒度压缩、文档重新排序、动态比例和子序列恢复这些方法来改善性能。然而,这些方法将压缩和推理分为不同的步骤,可能导致性能下降。相反,E2LLM是端到端训练,有效消除了上述问题。
软提示压缩(Soft prompt compression)由Mu等人(2023)和Ge等人(2023)提出,该方法训练语言模型(LLMs)将提示压缩为包含原始提示知识的一组更简洁的标记,以便在未来使用。Chevalier等人(2023)通过开发AutoCompressor,将较长的文本上下文转换为概括向量,作为软提示,这扩大了LLM的上下文窗口,降低了计算成本,如LLoCO Tan等人(2024)所示。然而,直接使用LLMs生成句子级嵌入与它们原有的预测下一个标记的目标有偏离。因此,在这一点上实现令人满意的性能通常需要广泛的训练或微调模型以使其与新的目标一致。为克服这个问题,作者的E2LLM利用一个预训练的句子嵌入模型来表示提示,与嵌入模型的原始训练目标一致。
在本节中,作者将详细介绍作者提出的E2LLM框架,用于理解和推理长文本,该框架有效地结合了预训练文本编码器和解码器的优势。
E2LLM 作为一个灵活的框架,将这些组件无缝地集成在一起,可以有效地管理长上下文,并在可用的情况下利用更高级的组件的性能。下面作者将详细介绍每个组件,并按照 E2LLM 推理过程中的数据流进行介绍。
分词器(Chunker)分词器负责将长的上下文划分为较小、可管理的分块,同时确保每个分块的标记长度不超过文本编码器的最大序列长度。类似于 RAG,分块策略的选择会影响 E2LLM 的整体表现。在这里,作者选择了一个简单而有效的方法:首先定义分块大小,提取初始分块,然后在这个分块内进行后退搜索,例如分号或换行符,从而确定分块的位置。然后,在之前的分块的末尾开始一个新分块,并再次应用后退搜索方法。作者重复这个过程,直到所有文本都被分块。这种方法有助于保持原始文本的语义完整性。请注意,其他方法,如在分块之间引入重叠,也可以从整体上服务于 E2LLM。此外,分块的大小对 E2LLM 的性能至关重要。作者的实验表明,将过多的上下文放入单个分块中可能会降低性能,主要原因是高压缩比可能导致嵌入向量过于泛化,从而损害特定性。
值得注意的是,大多数预训练编码器,如 GTE Li 等人(2023)和 BGE Xiao 等人(2023),都是通过对比学习进行的训练。这意味着被用作嵌入向量 [CLS] 标记,通常只捕获了有助于区分分块的决策信息,而可能被 LLM 解码器所需要的信息可能被遗漏。为了解决这一限制,作者采用低秩自适应(LoRA) Hu 等人(2021)在对齐过程中训练文本编码器。这使得编码器在保持 LLM 性能所需信息的同时进行训练。
由于文本编码器和 LLM 解码器的隐藏维度可能不同, Adapter 是一个至关重要的组件。具体来说,作者使用具有 GELU 激活函数的 Hendrycks 和 Gimpel(2016 年)的两层多层感知机(MLP)作为 Adapter 网络。 Adapter 网络按个块对嵌入向量进行应用,作者将 Adapter 的输出称为 _分块标记_或_软提示_,然后将其传递给后续的 LLM。 Adapter 网络初始化随机,并在对齐过程中从零开始训练。
在作者的实验中,作者选择 Llama2 Touvron 等人(2023)作为 LLM 解码器,因为其在学术研究和行业应用中得到了广泛使用。此外,作者利用 LoRA 对编码器和解码器之间的对齐过程进行进一步的训练。
总结,本文详细介绍了 E2LLM 框架的每个组件,包括分词器、文本编码器、 Adapter 和 LLM 解码器。E2LLM 作为一个灵活的框架,能够有效地管理长上下文,同时能够利用更高级的组件在需要时提高性能。
现在作者专注于增强 E2LLM 的两个最后一层编码器 Adapter 和解码器 LoRA 分支的能力,以提高其理解长期输入上下文并有效推理相应答案的能力。为此,作者引入了两个不同的训练任务。
第一个任务旨在提高 LLM 对输入的理解。如图2 所示,一旦 LLM 收到 Adapter 提供的分块标记,作者会提示它重新陈述或重构输入。作者称此举为 "理解" 任务。用于此任务的具体提示是 "给定上下文:[分块标记] 请遵循指示:[重新陈述的上下文]"。值得注意的是,此任务是自监督的,允许作者汇总大量的训练数据,以确保 LLM 全面理解 Adapter 提供的嵌入。然而,在实验中,作者只使用长寿上下文指令微调数据此任务。由于这些输入通常一次无法完全重构,作者采用滑动窗口方法,根据连续的几个分块分段重构原始上下文,直至整个输入被重述。
另一方面,第二个训练任务使 LLM 能够基于分块标记(即长寿上下文)和用户的 Query 生成答案。作者称此为 "推理" 任务,并为此目的创建的提示是 "给定上下文:[分块标记] 请遵循指示:[问题答案]"。
最大序列长度从理论上讲,E2LLM 的最大序列长度等于编码器和解码器的序列长度的乘积。然而,如前所述,将分块大小设置为与编码器序列长度相匹配将面临挑战,因为它可能会阻碍编码器在单个分块内保留所有相关信息。因此,确定一个适当的分块大小非常重要。因此,E2LLM 的有效序列长度被确定为分块大小乘以 LLM 的解码器序列长度。实际上,作者在实验中设置最大分块大小为 512 个字符,这相当于大约 100 个标记。因此,上下文长度已扩展近 100 倍。
关系与E2LLM
E2LLM从最近在视觉语言模型(VLMs)中的最新进展中吸取灵感。这些VLMs利用 Adapter 将预训练的视觉编码器与LLM解码器对齐,使LLM能够处理视觉编码器输出的图像标记。在这个框架中,视觉编码器和LLM解码器都是独立预训练的,提供了灵活的方法来对齐高性能的视觉和语言模型,从而最大限度地发挥它们的能力。值得注意的是,VLMs在执行OCR(光学字符识别)任务方面表现出色,有效识别和输出图像中的文本。受到VLMs成功的影响,作者提出通过使用 Adapter 将文本编码器(即嵌入模型)与LLM解码器对齐,从而使LLM能够理解文本编码器编码的句子并基于此进行推理。此外,在作者的方法中,编码器和解码器都在同一个模态中运作,因此作者预计对齐过程将比在不同模态中运作的模型更简单,可能减少了对齐所需的数据量。相反,训练E2LLM所采用的重构任务是自监督的,使作者能够积累大量文本数据以增强LLM的上下文理解。然而,VLMs中的对齐任务依赖于监督图像-文本对,这显然比收集更具挑战性。
关系与RAGRAG(检索增强生成)Ding等人(2024年)通常通过使用基于文本编码器的检索器从知识库中根据用户 Query 识别相关段落。这些检索到的文本然后被输入到LLM(即生成器)中以增强响应。RAG可以增强E2LLM,通过检索最相关的段落,而E2LLM可以扩展RAG中生成器的上下文长度。此外,RAG的一个显著挑战是如何在检索器和生成器之间解释相同的文本时的不一致性(Li等人,2024;Ding等人,2024)。E2LLM通过将检索器(文本编码器)与生成器(LLM解码器)对齐解决了这个问题,促进了更好地连贯的解释。此外,E2LLM通过嵌入向量而不是原始文本实现了更高效的检索器和生成器之间的通信。
关系与LLoCO与E2LLM相比,LLoCO Tan等人(2024年)使用自动压缩器Chevalier等人(2023年)作为其长文本编码器,并省略了 Adapter ,因为它使用与自动压缩器相同的LLM(即Llama2)。因此,它可以有效地理解Llama2微调后的自动压缩器生成的摘要标记--类似于块标记或软提示。LLoCO的一个优势是其文本编码器,即自动压缩器,考虑了长文本块之间的相互依赖性。然而,这也存在局限性:长上下文只能逐个处理,一个块接一个块。相比之下,E2LLM可以并行处理所有块,更能适应长上下文。此外,由于编码器受限于自动压缩器,没有更新自动压缩器就无法提高LLoCO的性能。值得注意的是,自动压缩器需要在原始Llama2上进行20亿个标记的广泛微调过程,以便生成摘要标记。相比之下,E2LLM设计为能够随时轻松集成更强大的文本编码器和解码器。
在本部分中,作者对E2LLM在两个关键任务上的性能进行了评估,包括文档问答(QA)和文档总结。为了进行比较,作者将E2LLM基准对四个 Baseline 进行了比较,包括Yarn Peng等(2023)、LongLoRA Chen等(2023)、RAG Gao等(2024)和LLoCO Tan等(2024),它们分别代表着长度扩展、稀疏注意力、硬提示压缩和软提示压缩的当前最先进方法(SOTA)。请注意,除了RAG以外的所有方法,作者在所有的方法中设置了LoRA的排名相同,导致YaRN和LLoCO拥有17M可训练参数,而LongLoRA拥有140M参数。
为了评估E2LLM的有效性,作者利用了五个公开可用的数据集,涵盖了解说和文档问答(Document QA)两种任务。数据统计如下表1所示。
摘要
对于总结任务,所有方法的表现使用Rouge Lin(2004)度量标准进行测量,该标准通过比较生成文本的n-gram与参考文本的n-gram来工作。具体地,作者利用Rouge-1、Rouge-2和Rouge-L来评估生成文本和参考文本中的单标记、连续双标记以及最长公共子序列(LCS)的覆盖率。作者还计算它们的算术平均值,表示为G-mean,更高的值表示生成摘要的质量更高。
关于文档问答任务,作者采用Shaham等人(2023年)展示的方法,该方法通过规范化空白,小写,排除停用词和标点来计算生成答案与参考答案的单标记覆盖率。根据单标记标记的数量,结合生成答案和参考答案的标记数量,作者计算精确度、召回率和F1值。 again,一个更高的值表示模型提供更精确的回答。
以下是作者对各个基准及其实现细节的描述:
在本研究中,作者使用了三个用于问答(QA)的数据集,即质量(Quality)、叙事性(NarrativeQA)和琐碎知识(TriviaQA),以及两个用于总结(summarization)的数据集,即QMsum和Government报告(GovReport)。这些数据集的详细信息见表1。需要注意的是,质量(Quality)和琐碎知识(TriviaQA)的数据量较短,而叙事性(NarrativeQA)的数据量较长。在实验部分,作者使用每个数据集的验证集进行测试,并将训练集划分为训练和验证子集,比例为95:5。作者还包括原始LLama2-7B-chat作为 Baseline 。为了评估性能,作者在总结任务上使用Rouge-N得分,而在问答任务上使用精确度、召回率和F1分(具体定义见第4.2节)。所有基准方法的结果见表2。
很明显,提出的E2LLM在所有评估方法中始终获得最佳或第二好的性能。有趣的是,Yarn在两种任务上都取得了令人期待的结果,但当序列长度超过大约74,000时,在A100 GPU(80G)上出现内存溢出(OOM)问题,这是由LLM固有的平方空间复杂性导致的。此外,Yarn在较短序列上的性能下降,如在琐碎知识(TriviaQA)中。如先前的Chen等人(2023年)所指出,注意力机制在极其长的上下文中可能会分散,在众多标记位置上过于稀疏,从而降低在这种较短上下文中的表现。与此相关,LongLoRA在高斯注意力训练期间使用移位稀疏注意力,表现出相对可比的问题。它能忽视信息历史,导致与E2LLM在所有数据集上的性能相比较差。LongLoRA在推理过程中也面临着内存溢出问题,因为其使用了全注意力,如在叙述性(NarrativeQA)数据集上。另一方面,原始LLama2-7B-Chat在QA任务上的表现不佳,主要原因是其上下文长度有限,为4096个标记。RAG在QA任务上的表现最差,这可能来自于特定 Query 所需的关键信息的丢失,此外,由于在检索过程中引入的噪声可能不利于LLMs的生成能力,因此E2LLM在总结任务中的性能也低于原始LLama2-7B。与Yarn、LongLoRA和RAG相比,E2LLM在理解并有效消除不相关数据方面表现优越,这得益于其独特的“理解”或重构任务。
最后,作者观察到LloCO在QA任务上表现还可以,尤其是在质量(Quality)和琐碎知识(TriviaQA)等相对较短上下文问题上。然而,在总结任务上的性能急剧下降,这与其本身的出版结果一致(见Tan等人(2024年)中的表1)。LloCO采用AutoCompressorChevalier等人(2023年)作为文本编码器,利用LLama2为每个块生成摘要向量。这些向量旨在保留后续块所需的信息,而丢弃其他可能具有价值的内容,如Rau等人(2024年)所指出的。在QA任务中,只需要提示LLM相关信息即可获得准确答案,这与AutoCompressor的训练目标相一致。然而,在总结任务中,需要全面了解整个上下文。由于由AutoCompressor生成的摘要向量并未包含每个块中的所有信息,LloCO在总结任务中的性能较差。相比之下,E2LLM由于其独特的“理解”或重构任务,可以捕捉到所有块中的信息,因此其在总结任务中表现优越。
在本小节中,作者检验了各种方法的推理效率。首先,作者选择了7个在1000至73000之间均匀分布的上下文长度,因为Yarn和LongLoRA在74000长度的上下文中会遇到内存溢出(OOM)问题。对于选定的每个上下文长度,作者随机选择10个样本并对它们进行截断,以预定义的长度为标准。然后,作者对这些10个样本的运行时间和GPU内存成本进行平均,并将结果表示为上下文长度的函数,如图3所示。
作者的模型E2LLM在运行时间和内存使用方面表现出最低的性能,尤其是在非常长的序列(73000)上。
在本小节中,作者使用QMSum和NarrativeQA数据集对E2LLM进行消融研究,它们分别是长上下文总结和文档问答案任务的代用指标。表3中列出了所检查的每个变体的详细信息。
首先,作者评估了"理解"任务在E2LLM中的重要性。作者的研究结果表明,当此任务被排除时,性能将下降16.39%,这强调了其在帮助E2LLM解释编码器产生的块嵌入和进一步增强"推理"任务性能中的关键作用。接下来,作者检查在对齐过程中是否需要训练编码器和解码器的LoRA分支。
作者的分析发现,具有重叠段的块分解器(例如,30%的重叠)可以适度提升性能。此外,使用更先进的编码器和解码器还将提高E2LLM的性能,表明单个组件的改进可以对整个系统产生积极影响。
在本节中,作者研究了超参数对 E2LLM 性能的影响,特别关注“理解”任务所分配的重量、编码器和解码器的 LoRA 排名和 Adapter 网络中的层数。
“理解”任务所分配的重量表示了它在相对于“推理”任务中的相对重要性。回忆一下,输入上下文通常比答案更长,一次无法全部重构。为解决这个问题,作者采用滑动窗口方法,将原输入上下文以连续的块为单位进行分段重构,直到整个输入被重构为止。因此,“理解”任务的样本数量显著多于“推理”任务。为了保持样本平衡,作者通常会将复习任务赋予较小的权重。如图4所示,最优权重在不同的数据集上可能有所不同,这可能会受到上下文长度和句子嵌入模型理解上下文特定语义的能力等因素的影响。
此外,作者研究了在 {0, 4, 8, 12, 16, 20, 24} 的范围内和 {0, 2, 4, 6, 8, 10, 12} 的范围内,编码器(即 GTE-Large-en,LoRA 排名为 0)和译码器(即 Llama2-7B-Chat,LoRA 排名为 8)的最优 LoRA 排名。研究发现,当两个模块不具备可训练参数时,即完全“冻结”编码器和译码器时,会阻碍有效提取原始上下文内容和编码器与译码器之间的对齐。如图5所示,随着两个模块的排名增加,性能相应提高,强调了训练的重要性。性能提升在达到一定范围(即特定排名)时结束,但在此范围之外,排名的进一步增加会导致性能下降,因为模型在训练数据集上过度拟合。
作者还探索了 Adapter 网络中层数的影响。如图5所示,两层 MLP 在各个数据集上都能提供出色的性能,表明结果的稳定性。作者假设单层 MLP 可能难以完成对齐任务,而三层 MLP 可能会在训练数据上导致过度拟合。
在本论文中,作者提出了一种名为 E2LLM 的新方法,以解决 LLM 中增强长文本性能的挑战。
它通过有策略地分割长文本成块,将它们压缩成嵌入向量,并利用 Adapter 将它们与仅包含译码器的 LLM 对齐,从而有效地解决了“不可能三角形”问题。作者采用两种训练目标以促进 LLM 对软提示的理解,从而在长文本场景中实现卓越性能。
实验结果表明,E2LLM 在保持长文本性能、计算效率和模型兼容性方面都有效地优于现有方法。
[1].E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning.