欢迎来到 NLP 时事简报第六期!全文较长,建议收藏。
如果想让自己有趣的研究/项目出现在NLP简报中,欢迎在公众号后台留言联系我
来看看都有哪些内容,enjoy
基于Transformer的模型已经被证实可以有效地处理从序列标记到问题解答等不同类型的NLP任务,其中一种称为BERT[1]的模型得到了广泛使用,但是像其他采用深度神经网络的模型一样,我们对其内部运作知之甚少。一篇名为《 A Primer in BERTology: What we know about how BERT works[2]》的新论文旨在回答一些有关BERT为什么在这么多NLP任务中表现良好的问题。论文的内容包括:BERT学习的知识类型及其表示的位置,BERT是如何学习知识的,以及研究人员如何使用其他方法来改进它,等等。
Google AI最近发布了一种方法,该方法将从NLP迁移学习模型中学到的所有知识和经验汇总到一个称为Text-to-Text Transfer Transformer(T5)
的统一框架中。这项工作建议大多数NLP任务可以用文本到文本的格式来表示,这表明输入和输出都是文本。作者声称,这种“框架为预训练和微调提供了一致的训练目标”。T5本质上是一种编码器/解码器Transformer,特别是对模型的attention
组件进行了各种改进。该模型在新发布的名为Colossal Clean Crawled Corpus(C4)[3]的数据集上进行了预训练,并在NLP任务(例如摘要,问题回答和文本分类)上获得了SOTA结果。
当前的研究使用独立的任务和数据集来执行视觉和语言研究,即使执行这些任务所需的“具有视觉基础的语言理解技能”也是如此。一篇新论文(将在CVPR上发表),《12-in-1: Multi-Task Vision and Language Representation Learning》[4],提出了一种大规模多任务方法,以更好地建模并共同训练视觉和语言任务以生成更通用的视觉和语言模型。该模型减小了参数大小,并且在基于字幕的图像检索和可视问题解答等任务上表现出色。
众多研究人员和合作者发表了一篇论文,BERT Can See Out of the Box: On the Cross-modal Transferability of Text Representations[5],旨在回答BERT模型是否可以产生可以推广到诸如视觉之类的文本之外的其他方式的问题。他们提出了一种称为BERT-gen的模型,该模型利用了单模态或多模态表示,并在视觉问题生成数据集上获得了改进的结果。
Gary Marcus最近发表了一篇论文,The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence[6],他在其中解释了一系列步骤,他认为,我们应该采取这些步骤来构建更强大的AI系统。Gary在论文中的中心思想是着重于构建由认知模型指导的混合和知识驱动系统,而不是着重于构建需要更多数据和计算能力的大型系统。
MIT Technology Review 出版了一份清单,列出了他们确定的10项突破[7],这些突破将对解决可能改变我们的生活和工作方式的问题产生影响。列表如下(排名不分先后):
unhackable internet,hyper-personalized medicine, digital money, anti-aging drugs, AI-discovered molecules, satellite mega-constellations, quantum supremacy, Tiny AI, differential privacy, and climate attribution.
Yoshua Bengio最近写了关于ML出版物快节奏发展的担忧[8]。主要担心的是,由于发布的速度快,很多论文都包含错误并且只是渐进式出版,而花费更多的时间并确保严谨(这是多年以前的工作方式)似乎正在消失。最重要的是,学生是那些必须应对这种压力和压力的负面后果的人。为了解决这种情况,Bengio谈论了他的行动,以帮助减慢研究出版物的发展,以造福科学。
Pointer-Generator网络旨在增强用于改进抽象摘要[9]的序列到序列注意模型。如果您希望使用AllenNLP进行Pointer-Generator抽象摘要,Kundan Krishna已开发了一个库,PointerGenerator network implementation in AllenNLP[10],该库可让您运行预先训练的模型(提供)或训练自己的模型。
随着Transformer模型的发展以及它们对以其他语言执行的大规模NLP任务的有效性,人们付出了巨大的努力来发布不同语言的不同类型的数据集。例如,Sebastian Ruder共享了可用于不同语言问答研究的数据集列表:DuReader[11],KorQuAD[12],SberQuAD[13],FQuAD[14],Arabic-SQuAD[15],SQuAD-it[16]和Spanish SQuAD[17]。
PyTorch Lightning[18]是一种可让您抽象化可能需要设置GPU / TPU训练和使用16位精度的训练的工具。使这些事情正常工作可能会变得很乏味,但是好消息是PyTorch Lightning简化了此过程,并允许您在多GPU和TPU上训练模型,而无需更改当前的PyTorch代码。
Microsoft研究团队发布了一个库,该库提供对许多不同的图神经网络(GNN)架构的实现[19]的访问。该库基于TensorFlow 2,还提供可直接在训练/评估循环中使用的数据整理模块。
你是否曾经想从头开始训练自己的语言模型,但是没有足够的资源来训练呢?如果是这样,那么Aditya Malte提供了一种优雅的方式,它教您如何使用较小的数据集从头训练语言模型[20]。
CLUE benchmark团队整理了所有中文NLP数据集,附常用英文NLP数据集,可以在CLUEbenchmark/CLUEDatasetSearch[21]找到。
一段时间以来,许多研究人员和公司已尝试建立可理解并可以识别文本或视觉环境中的情绪的AI模型。一篇新文章重新引发了辩论,Why faces don’t always tell the truth about feelings[22],即旨在直接从面部图像识别情绪的AI技术做得不好。该领域的杰出心理学家提出的主要论点是,没有证据表明可以仅从面部图像进行情感检测的通用表达方式。它将需要一个模型更好地了解人格特征,身体动作等,才能真正更接近地更准确地检测人类所表现出的情绪。
构建AI系统时的道德考量之一是确保隐私。当前,这可以通过两种方式来实现,即使用差异隐私或联合学习[23]。如果你想了解更多有关这些主题的信息,Jordan Harrod在此视频中为我们做了很好的介绍,其中还包括使用Colab notebook的动手实践课程。
Madison May撰写了一篇新博客文章,A Deep Dive into the Reformer[24],深入探讨了Reformer[25],这是Google AI最近提出的一种新改进的基于Transformer的模型。在上一期新闻通讯中,我们也介绍了Reformer。
fastpages[26]允许你免费使用GitHub页面自动建立博客。该解决方案简化了发布博客的过程,还支持使用导出的Word文档和Jupyter notebook。
Google Brain团队的Pablo Castro发表了一篇出色的博客文章,Tips for interviewing at Google[27],重点介绍了那些有兴趣在Google求职面试的人的技巧。主题包括有关如何准备面试,面试过程中会发生什么以及面试后会发生什么的建议。
图神经网络(GNN)和变压器都已证明在不同的NLP任务上有效。为了更好地理解这些方法背后的内部工作原理以及它们之间的联系,Chaitanya Joshi撰写了一篇很棒的文章,Transformers are Graph Neural Networks[28],解释了GNN与Transformers之间的联系以及这些方法可以以不同的方式组合成一种混合模型。
Fabian Fuchs和Ed Wagstaff讨论了等方差的重要性以及CNN[29]如何实施。他们首先定义等方差的概念,然后在CNN的上下文中讨论翻译。
由于自我监督在语言建模的现代技术中发挥了作用,因此在NLP简报的前几期中已经进行了很多讨论。Jonathan Whitaker的这篇博客文章提供了一个很好的,直观的图像自我监督解释[30]。如果你真的对该主题感兴趣,Amit Chaudhary还撰写了一篇出色的博客文章,以可视化方式描述自监督学习[31]。
斯坦福大学最近以YouTube播放列表的形式发布了有关深层多任务和元学习的新课程[32]的录像。主题包括贝叶斯元学习,终身学习,强化学习入门,基于模型的强化学习等。
dair.ai发布了一系列教程,旨在帮助您开始使用PyTorch进行深度神经网络学习[33]。这是一项正在进行的工作,当前的一些主题包括如何从头开始实现逻辑回归模型,以及如何从头开始编程神经网络或循环神经网络。
Jeremy Howard和Sylvain Gugger将为即将举行的课程发布一份完整的教程fastbook[34],其中介绍了深度学习的概念以及如何使用PyTorch和fastai库开发不同的方法。
Kaggle提供了一系列免费的微型课程[35],可帮助您开始进行数据科学之旅。其中一些课程包括机器学习的可解释性,机器学习和Python入门,数据可视化,特征工程和深度学习等。
这是另一门不错的在线数据科学课程[36],提供了课程表,幻灯片和botebook,内容涉及从探索性数据分析,模型解释到自然语言处理等各种主题。
nepture.ai发表了一篇文章,8 Creators and Core Contributors Talk About Their Model Training Libraries From PyTorch Ecosystem[37],其中包含与核心创作者和贡献者的详细讨论,讨论了他们的旅程以及构建PyTorch及其工具的哲学。
Sasha Rush分享了一部令人印象深刻的Colab notebook,该笔记本解释并显示了如何产生稀疏softmax输出并将稀疏性引入Transformer模型的关注组件的技术细节,该组件有助于在给定上下文中对无关单词产生零概率,从而提高了性能和可解释性。
Conor Bell[38]写了这个非常棒的python脚本,使您可以查看和准备可用于StyleGAN模型的数据集。
Manu Romero为西班牙语提供了一种经过微调的POS模型[39],该模型可在Hugging Face Transformer库中进行调用。
该github库,BERT-related-papers[40]包含一长串精心挑选的与BERT相关的论文,这些论文涉及诸如模型压缩,特定领域,多模型,生成,下游任务等不同问题。
Connor Shorten发布了一个15分钟的简短视频,Automatic Shortcur Removal for Self-supervised Learning[41],解释了一个新的通用框架,该框架旨在减少自我监督表示学习中“sortcut”的影响。这一点很重要,因为如果处理不正确,该模型可能无法学习有用的语义表示,并可能证明在转移学习环境中无效。
Sebastian Ruder[42]发布了新一期的NLP News newsletter,主题和资源包括对2019年NLP和ML论文的分析,到用于学习有关转移学习和深度学习要点的幻灯片。
CLUECopus2020:可能是史上最大的开源中文语料库以及高质量中文预训练模型集合。项目地址https://github.com/CLUEbenchmark/CLUECorpus2020
[1]
BERT:https://arxiv.org/abs/1810.04805
[2]
A Primer in BERTology: What we know about how BERT works:https://arxiv.org/abs/2002.12327
[3]
Colossal Clean Crawled Corpus(C4):https://www.tensorflow.org/datasets/catalog/c4
[4]
《12-in-1: Multi-Task Vision and Language Representation Learning》:https://arxiv.org/abs/1912.02315
[5]
BERT Can See Out of the Box: On the Cross-modal Transferability of Text Representations:https://arxiv.org/abs/2002.10832
[6]
The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence:https://arxiv.org/abs/2002.06177
[7]
10项突破:https://www.technologyreview.com/lists/technologies/2020/
[8]
关于ML出版物快节奏发展的担忧:https://yoshuabengio.org/2020/02/26/time-to-rethink-the-publication-process-in-machine-learning/
[9]
抽象摘要:https://arxiv.org/abs/1704.04368
[10]
PointerGenerator network implementation in AllenNLP:https://github.com/kukrishna/pointer-generator-pytorch-allennlp
[11]
DuReader:https://www.aclweb.org/anthology/W18-2605/
[12]
KorQuAD:https://arxiv.org/abs/1909.07005
[13]
SberQuAD:https://arxiv.org/abs/1912.09723
[14]
FQuAD:https://arxiv.org/abs/2002.06071
[15]
Arabic-SQuAD:https://arxiv.org/abs/1906.05394
[16]
SQuAD-it:https://github.com/crux82/squad-it
[17]
Spanish SQuAD:https://arxiv.org/abs/1912.05200v2
[18]
PyTorch Lightning:https://towardsdatascience.com/from-pytorch-to-pytorch-lightning-a-gentle-introduction-b371b7caaf09
[19]
许多不同的图神经网络(GNN)架构的实现:https://github.com/microsoft/tf2-gnn
[20]
使用较小的数据集从头训练语言模型:https://gist.github.com/aditya-malte/2d4f896f471be9c38eb4d723a710768b#file-smallberta_pretraining-ipynb
[21]
CLUEDatasetSearch:https://github.com/CLUEbenchmark/CLUEDatasetSearch#qa
[22]
Why faces don’t always tell the truth about feelings:https://www.nature.com/articles/d41586-020-00507-5
[23]
差异隐私或联合学习:https://www.youtube.com/watch?v=MOcTGM_UteM
[24]
A Deep Dive into the Reformer:https://www.pragmatic.ml/reformer-deep-dive/
[25]
Reformer:https://ai.googleblog.com/2020/01/reformer-efficient-transformer.html
[26]
fastpages:https://fastpages.fast.ai/fastpages/jupyter/2020/02/21/introducing-fastpages.html
[27]
Tips for interviewing at Google:https://psc-g.github.io/interviews/google/2020/02/25/interviewing-at-google.html
[28]
Transformers are Graph Neural Networks:https://graphdeeplearning.github.io/post/transformers-are-gnns/
[29]
等方差的重要性以及CNN:https://fabianfuchsml.github.io/equivariance1of2/
[30]
图像自我监督解释:https://datasciencecastnet.home.blog/2020/02/22/self-supervised-learning-with-image%E7%BD%91/
[31]
可视化方式描述自监督学习:https://amitness.com/2020/02/illustrated-self-supervised-learning/
[32]
深层多任务和元学习的新课程:https://www.youtube.com/playlist?list=PLoROMvodv4rMC6zfYmnD7UG3LVvwaITY5
[33]
使用PyTorch进行深度神经网络学习:https://github.com/dair-ai/pytorch_notebooks
[34]
完整的教程fastbook:https://github.com/fastai/fastbook
[35]
免费的微型课程:https://www.kaggle.com/learn/overview
[36]
在线数据科学课程:https://lewtun.github.io/dslectures/
[37]
8 Creators and Core Contributors Talk About Their Model Training Libraries From PyTorch Ecosystem:https://neptune.ai/blog/model-training-libraries-pytorch-ecosystem?utm_source=twitter&utm_medium=tweet&utm_campaign=blog-model-training-libraries-pytorch-ecosystem
[38]
Conor Bell:https://gist.github.com/connorbell/9269401d127f1e507cc9aaf2803067c4
[39]
经过微调的POS模型:https://github.com/huggingface/transformers/tree/master/model_cards/mrm8488/bert-spanish-cased-finetuned-pos
[40]
BERT-related-papers:https://github.com/tomohideshibata/BERT-related-papers
[41]
Automatic Shortcur Removal for Self-supervised Learning:https://www.youtube.com/watch?time_continue=79&v=-Bh_7tzyoR4&feature=emb_logo
[42]
Sebastian Ruder:http://newsletter.ruder.io/issues/accelerating-science-memorizing-vs-learning-to-look-things-up-schmidhuber-s-2010s-greek-bert-arc-illustrated-reformer-annotated-gpt-2-olmpics-223195
- END -