首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一文看尽2019全年AI技术突破

一文看尽2019全年AI技术突破

作者头像
OpenCV学堂
发布2020-02-21 13:30:35
5740
发布2020-02-21 13:30:35
举报

来源:公众号 量子位 授权转

2019年,整个AI行业的发展如何?

  • NLP模型不断刷新成绩,谷歌和Facebook你方唱罢我登场;
  • GAN在不断进化,甚至能生成高分辨率难辨真假的人脸;
  • 强化学习攻破了《星际2》等战略游戏。

让人对到来的2020年充满期待。

最近,Analytics Vidhya发布了2019年AI技术回顾报告,总结了过去一年中,AI在不同技术领域取得的进展,并展望了2020年的新趋势。

Analytics Vidhya是一个著名数据科学社区。其技术回顾报告由多位机器学习业内专家撰写。

报告认为,在过去的一年中,发展最为迅猛的是NLP,CV已较为成熟,RL才刚刚起步,明年可能迎来大爆发。

量子位在报告基础上,进行了编译整理及补充。话不多说,一起来逐一盘点2019的那些AI技术吧:

自然语言处理(NLP):语言模型井喷,部署工具涌现

NLP在2019年实现了巨大的飞跃,该领域这一年取得的突破是无与伦比的。

报告认为,2018年是NLP的分水岭,2019年本质上是在此基础上进一步发展,让该领域突飞猛进。

Transformer统治了NLP

自从2017年的论文Attention is All You Need发表以来,出现了BERT为代表的NLP模型。之后,Transformer一次又一次地在NLP领域中统治了SOTA结果。

谷歌的Transformer-XL是另一种基于Transformer的模型,在语言建模方面胜过BERT。随后是OpenAI的GPT-2模型,它以其生成非常像人类的语言文字而闻名。

2019年下半年,BERT本身出现了许多创新,例如CMU的XLNet,Facebook AI的RoBERTa和mBERT(多语言BERT)。这些模型在RACE、SQuAD等测试榜上不断刷新成绩。

GPT-2则终于释出完整版,开源15亿参数模型。

GPT-2模型地址: https://openai.com/blog/gpt-2-1-5b-release/

大型预训练语言模型成常态

迁移学习是2019年NLP领域出现的另一趋势。我们开始看到多语言模型,这些模型在大型的未标记文本语料库上进行了预训练,从而使它们能够学习语言本身的潜在细微差别。

GPT-2、Transformer-XL等模型几乎可以对所有NLP任务进行微调,并且可以在相对较少的数据下很好地运行。

像百度的ERNIE 2.0这样的模型引入了持续预训练的概念,预训练方法有了很大的进步。在此框架中,可以随时逐步引入不同的自定义任务。

新的测试标准推出

随着一系列NLP新模型带来了巨大性能提升,它们的测试分数也已经达到了上限,分差很小,甚至在GLUE测试中超过了人类的平均水平。

因此这些测试基准已经不足以反映NLP模型的发展水平,也不利于未来的进一步提高。

DeepMind、纽约大学、华盛顿大学联合Facebook提出了新的测试标准SuperGLUE,加入了更难的因果推理任务,对NLP模型提出了新的挑战。

开始考虑NLP的工程和部署

2019年出现了一大批实用的NLP资源:

斯坦福大学开源的StanfordNLP库,HuggingFace的Transformer预训练模型库。spaCy利用该库创建了spacy-transformers,这是一种用于文本处理的工业级库。

斯坦福NLP小组表示:“与我们在2019年训练的大型语言模型一样,我们还将重点放在优化这些模型上。”

像BERT,Transformer-XL,GPT-2这些大型模型的问题在于,它们的计算量很大,因此在现实中使用它们几乎是不切实际的。

HuggingFace的DistilBERT显示,可以将BERT模型的大小减少40%,同时保留其97%的语言理解能力,并且速度提高60%。

谷歌和丰田研究出了另一种减小BERT模型尺寸的方法ALBERT,它在3个NLP基准测试(GLUE,SQuAD,RACE)上获得了SOTA的成绩。

对语音识别的兴趣增加

NLP领域在2019年重新燃起了对英伟达NeMo等框架开发音频数据的兴趣,该框架使端到端自动语音识别系统的模型训练变得异常轻松。

除了NeMo之外,英伟达还开源了QuartzNet,QuartzNet 另一个基于Jasper的新的端到端语音识别模型架构,Jasper是一种小型,高效的语音识别模型。

更关注多语言模型

在能够使用多语言数据之前,NLP如何真正发挥作用?

今年,人们对重新探索NLP库(例如StanfordNLP)的多语言途径有了新的兴趣,这些途径带有经过预先训练的模型,可以处理50多种人类语言的文本。您可以想象,这对社区产生了巨大影响。

然后,成功尝试通过Facebook AI的XLM mBERT(超过100种语言)和CamemBERT 等项目来创建像BERT这样的大型语言模型,该项目针对法语进行了微调:

2020年趋势

以上是2019年NLP领域进展的总结,2020年该领域会有哪些趋势呢?

身为NLP专家、Kaggle Grandmaster的Sudalai Rajkumar推测了2020年的主要趋势:

延续当前趋势,在更大的数据集上训练更大的深度学习模型; 构建更多的生产应用程序,较小的NLP模型将对此有所帮助; 手动注释文本数据的成本很高,因此半监督标记方法可能会变得很重要; NLP模型的可解释性,了解模型在进行公正决策时学到的知识。

NLP领域学者、ULMFiT的作者之一Sebastian Ruder认为:

不仅会从庞大的数据集中学习,还会看到更多的模型在更少样本上高效地学习; 模型越来越强调稀疏性和效率; 重点关注多语言的更多数据集。

计算机视觉(CV):图像分割愈发精细,AI造假愈演愈真

计算机视觉方面,今年CVPR、ICCV等国际顶会接收论文数量均有大幅增长。下面,就来回顾2019最受瞩目的几种重要算法和实现。

何恺明Mask R-CNN正在被超越

Mask Scoring R-CNN

在COCO图像实例分割任务上,Mask Scoring R-CNN超越了何恺明的Mask R-CNN,并因此中选计算机视觉顶会CVPR 2019的口头报告。

在Mask R-CNN这样的模型中,实例分类的置信度被当作mask的质量衡量指标,但实际上mask的质量和分类的质量并没有很强的相关性。

华中科技大学的这篇文章针对这个问题进行了研究,他们提出了一种新的打分方法:mask score。

不仅仅直接依靠检测得到分类得分,Mask Scoring R-CNN模型还单独学习了一个针对mask的得分规则:MaskloU head。

同时考虑分类得分和蒙版得分,Mask Scoring R-CNN就能更加公正地评估算法质量,提高实例分割模型的性能。

研究团队在COCO数据集上进行了实验,结果表明Mask Scoring R-CNN在不同的基干网路上,AP提升始终在1.5%左右。

这篇论文被Open Data Science评为2019年第一季度十佳论文之一。

论文一作是地平线实习生黄钊金,来自华中科技大学电信学院副教授王兴刚的团队,王兴刚也是这篇论文的作者之一。

SOLO

字节跳动实习生王鑫龙提出的实例分割新方法SOLO,作为一种单阶段实例分割方法,框架更简单,但性能同样超过了Mask R-CNN。

SOLO方法的核心思想是,将实例分割问题重新定义为类别感知预测问题和实例感知掩码生成问题。

COCO数据集上的实验结果表明,SOLO的效果普遍超过此前的单阶段实例分割主流方法,在一些指标上还超过了增强版Mask R-CNN。

相关地址

https://arxiv.org/abs/1903.00241v1 https://arxiv.org/abs/1912.04488

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-01-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 自然语言处理(NLP):语言模型井喷,部署工具涌现
    • Transformer统治了NLP
      • 大型预训练语言模型成常态
        • 新的测试标准推出
          • 开始考虑NLP的工程和部署
            • 对语音识别的兴趣增加
              • 更关注多语言模型
                • 2020年趋势
                • 计算机视觉(CV):图像分割愈发精细,AI造假愈演愈真
                  • 何恺明Mask R-CNN正在被超越
                  相关产品与服务
                  语音识别
                  腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档