作者 | AlbertYang
大家好,这里是NewBeeNLP。今天给大家分享一篇大佬的ACL参会总结,整理了一些当前NLP领域的热点和有趣的工作。以下是原文
作为拖延症患者马上要NAACL了才写这个ACL的参会总结:(
Onsite会议上见到了许久未见的前老板Bonnie Webber(ACL 2020终身成就奖/Lifetime Achievement Award),更巧的是她主持了老板Diyi Yang的Rising Star Talk,Diyi还有一个outstanding paper 和一个tutorial,大概暗示Diyi不久的将来也会成为领域里的传奇吧:)。
接下来我主要从大模型的视角出发,根据ACL 2022 中tutorial,workshop,invited talks (the next big ideas, keynote, rising star talks) 列了一下自己眼中的NLP 热点和最新的有趣工作。
在“Zero- and Few-Shot NLP with Pretrained Language Models” 的Tutorial中,Iz Beltagy 在最后一部分介绍了预训练时候的顾虑。除了讲述标准模型架构和高效训练方法的相关问题之外,我认为有两点值得关注,
另外还有专门讨论模型预训练的workshop:“Workshop on Challenges & Perspectives in Creating Large Language Models”
包括Extend large-scale Transformer models to multi-task, multimodal, multilingual settings。
2.1.1 Instructions as Task Descriptions
和FLAN, T0, InstructGPT 类似,“NatrualInstructions” 也是利用对任务描述的instructions作为prompt的一部分,让在多个已知任务上预训练(meta-training)的模型能够根据未知任务上的instruations实现cross-task generalization:
2.1.2 Continual / Lifelong Learning
有一些特定的方法能帮助Continual/Lifelong Learning,比如“Continual Sequence Generation with Adaptive Compositional Modules”利用了类似MoE的方法来组合不同任务的模块。
我整理的multimodality paper list 几个月不更新已经有点out-of-date了
2.2.1 视觉
随着Transformer在视觉任务上也展现出越来越好的效果,多模态预训练在ACL会议上也被大量关注,最新的进展可以在 Tutorial: “Vision-Language Pretraining: Current Trends and the Future”中找到。
但现如今视觉语言预训练的目标大多还是以语言词汇mask或者视觉语言对的判定作为目标,图片的mask复原(MAE方式)在多模态预训练中还没有见到很有效的进展,tutorial中指出这是值得研究的下一个突破点。
确实,语言由于词汇语义信息丰富,作为监督目标是效果比较好的(Jacob Andreas举办的“Learning with Natural Language Supervision” 的workshop也强调了这一点),如何在多模态预训练中用好图片低密度的语义信息(如BEiT)作为目标,仍值得研究。
2.2.2 表格 多模态预训练还包含了更多的模态,比如语言和表格,和视觉语言预训练类似,如何设计更好的预训练目标,如何实现更好的表格与文本对齐,也是值得探究的问题。我在谷歌的文章在这一方向上做了进一步的探究:“TableFormer: Robust Transformer Modeling for Table-Text Encoding” 。
2.2.3 代码 另外Code pretraining等在工业界越来越多的公司来做,除了OpenAI的codex、微软的收费codepilot之外,AWS 发布了CodeWhisperer,Luke在Meta也在预训练code generation model。semantic parsing大概要被这些模型统治了,或者至少要靠code generation model来帮助生成数据,来解决没有训练数据的窘境(我和Jacob Andreas聊天时他强力推荐的方法)。
2.3.1 有趣的方向 除了更多的Multilingual预训练模型以及针对更多下游任务的应用不断出现(e.g. “mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models”),我认为比较有趣的和值得探索的有以下几个方面:
2.3.2 Special Theme 这次ACL的special theme就是 “Language Diversity: from Low-Resource to Endangered Languages”,在rising star talk上Sebastian Ruder 做了 “Scaling NLP Systems to the Next 1000 Languages”的演讲。确实,对于语料极少语言的NLP问题是从社会影响和公平性角度极为重要的问题。
学术界没有大量的计算资源来预训练模型,不过仍有许多极有价值的问题适合去做,比如其中一大类就是如何用好预训练模型。How to use large-scale models ?
对于极大规模的模型,在大部分场景下无法fine-tune,如何设计更加有效的Decoding和Sampling,以直接利用模型的生成能力是研究的重点。
比如Ryan Cotterell 在“Typical decoding for natural language generation”提出的sampling算法能生成更自然的语言并且减少重复生成的问题。如何设计更好的constrained decoding算法来实现controllable generation仍是重点,比如“COLD Decoding: Energy-based Constrained Text Generation with Langevin Dynamics” ,以及我比较喜欢的constrained decoding做IE的方法 “Multilingual Autoregressive Entity Linking”(我们的工作“SEQZERO: Few-shot Compositional Semantic Parsing with Sequential Prompts and Zero-shot Models.”也用了类似的方法),另外,non-autoregressive generation/multi-stage generation也还是常用的方式(我在之前的工作“Planning and Generating Natural and Diverse Disfluent Texts as Augmentation for Disfluency Detection.”做过类似尝试)。
基于prompt的方式已经成为一种主要的利用大规模模型的方法 (清华的OpenPrompt拿了 best demo奖),除了常见的prompt,in-context learning (类似GPT3给定few-shot输入输出样例子)之外,利用生成的explanations去帮助模型得到更好的结果,以及将instructions作为prompt的一部分,这些都成了常用的进一步提升生成结果的方法。会议/tutorial/talk中提到的一些有趣的论文有:
如何设计更高效的模型(模型压缩,quantization,adapter等)仍是热点,比如:
把大模型视为knowledge base,它可以帮助我们生成有助于解决任务的知识进而帮助任务本身:
大模型强大的生成能力或者zero-shot/few-shot能力可以帮助生成标注数据以及生成数据作为数据扩增的方式,比如“Generating Data to Mitigate Spurious Correlations in Natural Language Inference Datasets” (我们EMNLP 2020 的工作“Planning and Generating Natural and Diverse Disfluent Texts as Augmentation for Disfluency Detection”也可以算是最早用预训练模型(GPT2)生成扩增数据的工作之一了,那时BART和T5刚出来,还没有GPT3)。
大模型时代我们可以更好地在有限数据的场景下学习(limitted data learning)或者few/zero-shot learning。两个极其火爆的tutorial是了解相关工作的极好材料:
另外学术界更关注的还是大模型做不了的、由模型或者问题本身性质决定的问题,以及预训练框架的本质缺陷。
Yejin Choi 在KeyNote中提到的Ambiguity现象可以cover到很大一部分问题。她提到Ambiguity是自然语言的内在性质,自然语言理解不是严格的分类问题(“language understanding is not categorization”),我们应该接受无处不在的ambiguity,NLP最基本的任务POS Tagging中POS的定义在随时间而变化;给定不同的场景(context),两句话的NLI关系可能由蕴含变为相斥(“Partial-input baselines show that NLI models can ignore context, but they don’t.”);情感分类由最初的只有postive negtive标签,到引入了neutral的标签;由于标注者的个体不同,人的标注不可避免会有ambiguity和bias(“Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection”);自动问答中也有AmbigQA、SituatedQA这样的数据集(Eunsol Choi在rising star talk中再次强调了同一个问题的答案可能随时间 temporal 、地点 geographical 等背景的变化而变化);nonmonotonic reasoning中,引入新的知识后,原有的推论和逻辑会被推翻。最近temporal modeling本身也成为比较火的领域(如TKGC,时序/event数据的建模等)。另外模型如何理解ambiguous的数据,以及利用ambiguous的数据提升模型也有很多有趣的工作,Swabha Swayamdipta在rising star talk 中着重介绍了用training dynamics发现ambiguous,并生成ambiguous 数据来帮助提升模型(OOD)泛化能力的工作(“WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation”)。
Eduard Hovy 在big ideas的演讲中提到了除了相对客观的在LM或者web中的知识(Commonsense knowledge about Schema mined from web/LM)人以及社会的知识也极为重要(Commonsense knowledge about people and people in groups: roles)。并且人应该去指导模型达成想要的目标。我想这也是interactive learning,human-in-the-loop learning作为热门研究话题要达到的一部分目的。比如有趣的工作有Ensol Choi的“Simulating Bandit Learning from User Feedback for Extractive Question Answering”,以及Yejin提到的“Reframing human-ai collaboration for generating free-text explanations”。
我老板Diyi Yang给的rising star talk详细讲述了人和社会因素应该在NLP中发挥更大的作用(很高兴见证终身成就奖老板Bonnie主持Rising Star老板的talk)。另外Diyi的outstanding paper “Inducing Positive Perspectives with Text Reframing”定义了“积极转述”这个很有社会影响的问题,很开心对这个工作有过微小的贡献。
随着大模型能力越来越强,可能可以做一些人类非常关心的,更复杂的,使我们成为人的任务,比如Mirella Lapta提到的story understanding和story telling,我非常喜欢她提到的类似“stories make us human”的观点。
大模型的安全性问题仍然是重点,federated learning在这次ACL中有一个workshop“Federated Learning for Natural Language Processing”。Privacy方面也持续有文章值得关注,比如“Are Large Pre-Trained Language Models Leaking Your Personal Information?”。
Personalization在工业界(搜索,推荐,广告)和学术界关注度都很高, 比较吃惊的是和Jason Eisner的聊天中他提到最近他也对Personalization很感兴趣并期待和工业界合作。
Onsite Conference的体验还是很好的,最开心的是很多big name在会议上有充足的时间来面对面交流,从paper/talk/tutorial中也学到了不少。还有一天就要onsite参加NAACL了,期待!