前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >小模型增强可超GPT-4?北航 && 人大 | 提出大模型ICL增强范式,模型越小收益越高!

小模型增强可超GPT-4?北航 && 人大 | 提出大模型ICL增强范式,模型越小收益越高!

作者头像
ShuYini
发布2024-01-18 14:05:51
3710
发布2024-01-18 14:05:51
举报
文章被收录于专栏:自然语言处理(NLP)论文速递

引言

上下文学习(In-context Learning,ICL)技术是提高模型在自然语言处理任务上表现的高效提示技术,因而众多研究在这个方向上提出各种方法,但大多数都专注于示例样本的选择,排序,质量等,在样例层面提高模型表现很难再有新的突破。

另外,「现有的ICL技术在弱模型上的表现存在scaling law(缩放法则)的限制」,即弱模型很难超过强模型的表现,然而弱模型由于参数规模小易于部署易于微调,因此「如何提高小参数规模模型的性能是一个值得探索地问题」

基于上述问题,本文研究「提出了一种全新的ICL,名为SLEICL(Strong LLM Enhanced ICL,大模型增强上下文学习)的方法」,它通过利用强语言模型从示例样本中学习,并提炼出解决特定任务的技巧,从而增强弱语言模型在这些任务中的能力。其中,「强模型合成的技巧被称为Grimoire(魔法书)」

SLEICL方法介绍

作者从两个方面总结了前人的相关研究:

一方面,关于为什么ICL有效果的理论研究,作者以及部分前人的工作表明,ICL有效果并不一定是因为示例样本好,而可能是示例样本的底层数据分布,或者所隐含的底层规则让语言模型学习到问题求解的方法。这个思路也是他们工作的重要启发点。

另一方面,关于ICL示例提示工程,作者从示例样本的特征,顺序以及选择综述了前人的研究。这些示例样本的不同设置也是后续SLEICL方法的灵感来源。

上图非常形象直观地说明了SLEICL框架的运行,它包括5个步骤:

  1. 「示例样本提示工程」:选择什么样的样本,进行怎样的排序;
  2. 「生成Grimoire」:根据不同的示例样本构造方式由强模型生成不同的Grimoire;
  3. 回答测试集中的某个问题;
  4. 「Grimoire排序」:根据该问题对这些Grimoire进行排序;
  5. 选择出最适合回答该问题的Grimoire,并交给弱模型来回答;

接下来将重点介绍1,2,4具体操作步骤。

示例样本提示工程

「为了使Grimoire的类别多样化并全面考察其影响,作者开发了四种不同的代表性样本选择方法(KCS、HCS、HSS、RSS)和一种零样本的选择方法,以及两种grimoire生成模板(全面版本的Grimoire和精简版本的Grimoire),5种选择方式和2种生成模板总共创建10个Grimoires」

选择方式中的KCS指k-means聚类示例样本,并从每个聚类中挑选样本,这个方法能够提升样本的多样性。HCS用的是层次化聚类方法,与k-means相似。

HSS是指hard sample selection,这个方法是过去研究中没有的,它通过在训练集上先使用零样本提示的技巧先测试下弱模型的能力,找出其中回答错误的部分,这部分就是要总结成Grimoire的,这与人类从错误中总结经验进行学习异曲同工。最后还有两个作为基线的方法,random sample selection(随机样本选择方法)和零样本的选择方法。

生成模板的出现是由于往往强模型总结的Grimoire技巧太长了,不一定对下游小模型适用,因此这里包括了全面版本的和精简版本的Girmoire两种。

生成的Grimoire

有了上面不同方式生成的样本集合,就可以「将这些集合逐一送入强模型,提示它生成关于回答这些示例样本的技巧」,比如下面这就是一个生成的Grimoire,它是用于仇恨言论检测的。可以发现Grimoire并不会直接包含示例样本中的问题和答案,而是给出一种解决问题的方案,因此比示例样本更加通用。

❝Below are some skills needed to solve the task; you need to carefully learn and consider the process and methods step by step:

  1. Look for negative words about specific groups or people based on identity like race or gender.
  2. Check if the sentence sounds hostile or demeaning.
  3. Watch for broad negative statements about a whole group.

Grimoire排序

有了这么多的Grimoire,按照作者的说法,实际上还需要找到最适合具体问题的Grimoire。一个最易于实现的想法是让Grimoire和具体问题计算语义相似度,来判断和问题的亲和程度。

这是作者实现的一个简单的基本方法,显然这个方法由于没有考虑样本的构造方式,待评测模型的规模等特征不一定能提高模型效果,因而作者提出了更加通用的分类器方法,在大规模的数据集上训练出一套固定参数的分类器,在后续需要魔法书排序时就调用该分类器,计算出一个得分,得分高者则是合适具体问题的魔法书。

作者设计的分类器结构如下图所示,「它是一个带有自注意力机制的双塔结构深度神经网络模型」。其中context是和问题相关的嵌入,grimoire是魔法书的嵌入,最终会输出grimoire对context的亲和度。

实验结果

「数据集」 包括了四大类任务,八大数据集。分别是情感分类的SST5和Subj,主题分类的AgNews和TREC,自然语言推断的RTE和QNLI,以及仇恨言论检测的hate_sp18和ethos。

「模型」 评测了GPT4-1106-preview,GPT3.5-Turbo,LLaMA2-70B,LLaMA2-13B,Baichuan2-7B,PHI-2 (2.7B)共计六个模型。其中GPT4同时是作为其他模型的强模型,视其他模型均为弱模型。

「实验设置」 共包括三种设置,基线方法,例如零样本的和小样本的;单独grimoire的方法,例如单独使用由k-means采样得到的示例样本生成的全面版本的grimoire来回答问题;SLEICL,例如使用提出的分类器来动态选择合适的grimoire以回答具体问题。

「结果分析」 从结果来看,小模型的确能受益于grimoire,并且参数越小的模型受益越高;另外,与作者猜想一致,基于分类器的排序方法比使用相似度的排序方法效果更好;部分模型甚至在使用了grimoire之后能超过GPT-4的表现。

评价

总的来说,这是一份非常有意思的工作。作者提出了不同于以往的提示技术,即利用强大的语言模型从代表性样本中学习并提取特定任务的技能,增强了弱语言模型的能力,探索了ICL的新可能;

除此之外,开发了一个双塔深度神经网络分类器,用于识别出更有益于解决具体问题的Grimoire,当然对这个分类器可能还可以继续改进,这个地方使用推荐系统领域的方法或许能提高效果;并在8个数据集,6个模型,16个实验设置上进行了充分的实验,结果表明提出方法在小模型上的有效增益。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • SLEICL方法介绍
    • 示例样本提示工程
      • 生成的Grimoire
        • Grimoire排序
        • 实验结果
        • 评价
        相关产品与服务
        NLP 服务
        NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档