前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >陈丹琦团队最新力作:上下文学习在上下文“学到”了什么?

陈丹琦团队最新力作:上下文学习在上下文“学到”了什么?

作者头像
zenRRan
发布2023-08-22 14:07:37
5650
发布2023-08-22 14:07:37
举报
文章被收录于专栏:深度学习自然语言处理

深度学习自然语言处理 原创 作者 | 鸽鸽

这段时间in-context learning真的很火,陈丹琦组最新的两篇文章都是ICL相关,今天我们拜读其中一篇:丹琦的硕士生、纽约大学准博士生Jane Pan的ACL小短文。

大佬的学生会做出怎样的科研示范呢?我们来瞧一瞧!有利于揭秘ICL的内部工作机制嗷~

最底下这篇哦

论文:What In-Context Learning "Learns" In-Context: Disentangling Task Recognition and Task Learning 地址:https://arxiv.org/abs/2305.09731 代码:https://github.com/ princeton-nlp/WhatICLLearns 录取:Findings of ACL 2023

众所周知,上下文学习第一次在GPT-3的论文Language Models are Few-Shot Learners中提出,这种超能力意味着大模型能够仅从上下文中的例子“学习”执行任务而不进行任何参数更新。那么,上下文学习究竟在上下文“学到”了什么?

这个问题尚无定论,一派研究假设预训练期间LLMs就已经隐含地学习了下游应用所需的任务,而上下文演示只是提供信息、使模型识别所需任务而已。另一派则表示,Transformer-based模型可以执行隐式梯度下降以更新“内部模型”,并且上下文学习与显式微调之间具有相似性!这个脑洞有点神奇了!作者提供了相关研究,大家可以去论文的参考文献看看。

根据这两派的观点,这篇文章把ICL分解为任务识别(TR)和任务学习(TL)两个方面,观察ICL背后到底发生了什么。

先来一波严谨的定义

我们先理解下TR和TL这两个概念的定义。以下描述有点啰嗦,也可以不看,用一句话概括就是:

TR通过演示(demonstrations)来识别任务并应用预训练的先验知识,TL学习预训练中没有的新知识;TR不受输入-标签映射的影响,但TL要求提供正确的映射!

ICL的数学定义

LLM将输入-标签对演示

D_{demo} = (x_1,y_1,x_2,y_2,...,x_K, y_K)

和测试输入

x_{test}

作为条件来预测标签

y_{\text {test }} \sim p_\theta(y | D_{demo}, x_{test})

, 由演示 (demonstrations) 引出一个映射

f:X→Y,x∈X,y∈Y

.

任务识别(TR)

任务识别(task recognition)表示模型仅通过观察输入分布

\left\{x_i\right\}_{i=1}^K

和标签分布

\left\{y_i\right\}_{i=1}^K

, 而不是提供

\left(x_i, y_i\right)

对的情况下,识别映射

f

的能力。在不依赖于配对信息的情况下,LLM会将其预训练的先验信息应用于识别到的

f

,即使提供错误的输入-标签映射。

看起来很抽象,我们举个例子。即使没有以明确的方式通过正确标签的演示来学习任务,甚至给出类似于“这部电影很棒,情感是负面的”的错误演示,模型在电影评论的情感分类这个任务上依然能表现良好,因为这个任务在预训练中很常见、很容易识别。

任务学习(TL)

任务学习(TL)指从演示(demonstrations)中学习新的输入-标签映射的能力。与TR不同,TL允许模型学习新的映射,因此正确的输入标签对至关重要。

难点是如何分解TR和TL

接下来看看作者如何分解这两种机制,搞定它这篇论文就get啦!

假设这两种机制在不同条件下发生,很显然,只识别不学习(TR)比学习新映射(TL)更容易。TR可以在小规模上发生,但只有TL会随着模型规模和演示次数的增加而显著改进。

那么如何将TR和TL分开观察呢?

作者巧妙地使用了标签空间操作来分离TR和TL,包括三种不同的设置:

  • GOLD:使用自然提示和黄金的输入-标签对的标准ICL设置。这种设置同时反映TR和TL。
  • RANDOM:使用与GOLD相同的自然提示,从标签空间中均匀随机采样演示标签这种设置只反映TR机制。
  • ABSTRACT:使用最小提示(提供没有任务信息的提示)和没有明确语义含义的字符(例如数字、字母和随机符号)作为每个类的标签,不泄漏任何任务特定的信息这种设置只反映TL机制。

图:在三种设置中进行实验:随机(顶部)、摘要(中间)和黄金(底部)

作者在4种类型的16个分类数据集上进行实验,包括情感分析、毒性检测、自然语言推理/复述检测和主题/立场分类等分类任务;使用三个最先进的LLM系列,包括GPT 3,LLaMA和OPT.

结果如何呢

总体趋势上,GOLD在所有模型族和演示数量方面始终表现最好,这是因为GOLD设置为模型提供了所有信息;RANDOM曲线不会随着模型大小或演示数量而增加,保持基本平稳;在模型尺寸较小或演示数量较少时(K = 8),RANDOM和GOLD之间差距非常微小。也就是说,从上下文示例中识别任务(TR)并不会随着模型大小或示例数量的增加而急剧扩展。

相比之下,任务学习(TL)受规模的影响,并且随着更多演示而进一步改善。ABSTRACT曲线的斜率随着模型大小和演示数量的增加而越来越陡峭;对于小模型或小的演示数量,ABSTRACT表现大致相同,且大多数情况下表现不如RANDOM,但ABSTRACT在最大模型和演示数量时表现明显优于RANDOM、甚至能匹配GOLD的表现。

图:GPT-3(左)、LLaMA(中)和OPT(右)16个数据集的平均精度

并且任务难度会影响任务学习的趋势,对于情感分析这类的简单任务,ABSTRACT随着规模和示例数量的增加呈更好的趋势;而自然语言推理(NLI)这类复杂任务的ABSTRACT曲线更平缓,表明模型更依赖于自然提示和预训练先验来解决这些任务。

总结

这篇论文独创地将ICL分成任务识别和任务学习这两种机制,并且证明两者发生的条件不同。小模型就有较好的任务识别的能力,但是大模型独具任务学习的新兴能力、并且可以利用更多演示来提高性能。

果然,学习能力还是要在大模型中涌现!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 先来一波严谨的定义
    • ICL的数学定义
      • 任务识别(TR)
        • 任务学习(TL)
        • 难点是如何分解TR和TL
        • 结果如何呢
        • 总结
        相关产品与服务
        NLP 服务
        NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档