专栏首页机器之心7 Papers | 清华天机芯片;非侵入式脑机接口;ACL 2019论文

7 Papers | 清华天机芯片;非侵入式脑机接口;ACL 2019论文

目录:

  • Towards artificial general intelligence with hybrid Tianjic chip architecture
  • Real-time decoding of question-and-answer speech dialogue using human cortical activity
  • RoBERTa: A Robustly Optimized BERT Pretraining Approach
  • Bridging the Gap between Training and Inference for Neural Machine Translation
  • Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment
  • ERNIE 2.0: A Continual Pre-training Framework for Language Understanding
  • DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks

1. 标题:Towards artificial general intelligence with hybrid Tianjic chip architecture

  • 作者:Jing Pei、Lei Deng 、Sen Song 、Mingguo Zhao 、 Youhui Zhang 、 Shuang Wu 、 Guanrui Wang 、 Zhe Zou 、 Zhenzhi Wu 、 Wei He 、 Feng Chen 、 Ning Deng 、 Si Wu 、 Yu Wang 、 Yujie Wu 、 Zheyu Yang 、 Cheng Ma 、 Guoqi Li 、 Wentao Han 、 Huanglong Li 、 Huaqiang Wu 、 Rong Zhao 、 Yuan Xie 、Luping Shi
  • 论文链接:https://www.nature.com/articles/s41586-019-1424-8

摘要:现阶段,发展人工通用智能的方法主要有两种:一种是以神经科学为基础,无限模拟人类大脑;另一种是以计算机科学为导向,让计算机运行机器学习算法。实现人工通用智能的最终目标是让两者结合,但由于两套系统使用的平台各不相同且互不兼容,极大地限制了人工通用智能的发展。论文中,研究者研发了一款融合了上述两种方法的电子芯片。他们的混合芯片有多个高度可重构的功能性核,可以同时支持机器学习算法和类脑电路。作者用一个无人自行车系统验证了这一混合芯片的处理能力。试验中,无人自行车不仅可以识别语音指令、实现自平衡控制,还能对前方行人进行探测和跟踪,并自动避障。作者认为,这项研究或能为人工通用智能平台的进一步发展起到促进作用。

推荐:八月份的 Nature 封面文章,论文提出的一种融合了脉冲神经网络和人工神经网络的基础硬件架构,有效推动了通用人工智能研究。论文作者来自清华大学、新加坡国立大学等,研究阵容豪华。

8 月份的「Nature」封面。

2. 标题:Real-time decoding of question-and-answer speech dialogue using human cortical activity

  • 作者:David A. Moses、Matthew K. Leonard、Joseph G. Makin、Edward F. Chang
  • 论文链接:https://www.nature.com/articles/s41467-019-10994-4

摘要:Facebook 与加州大学旧金山分校(UCSF)发布了有关脑机接口研究的最新进展,研究关于构建非侵入式可穿戴设备,让人们只需通过想象要说的话即可完成「打字」动作。这项研究证明了人们在对话时大脑产生的活动可以实时解码为电脑屏幕上的文字——而在此之前,这样的工作都是离线完成的,实时「翻译」文字是脑机接口研究领域的第一次。研究人员表示,他们的算法目前为止还只能识别一小部分单词和短语,但正在进行的工作旨在翻译更多词汇,并大幅降低识别错误率。

推荐:这也是「Nature」的一篇论文。这项对标马斯克 Neuralink 的工作提出了新颖的脑机研究思路。根据报道,Facebook 打算以此为基础开发 VR 眼镜。

该型脑机接口的实现图示。

3. 标题:RoBERTa: A Robustly Optimized BERT Pretraining Approach

  • 作者:Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanov
  • 论文链接:https://arxiv.org/pdf/1907.11692.pdf
  • 实现链接:https://github.com/pytorch/fairseq/tree/master/examples/roberta

摘要:RoBERTa 的全名为 Robustly Optimized BERT pretraining Approach。Facebook 的研究人员采用了 BERT-Large,并通过更多的数据与更长的训练来提升预训练过程,最终的结果通过模型集成获得。前段时间,RoBERTa 打败 XLNet 登上了 GLUE 排行榜榜首。

推荐:最佳预训练语言模型的头衔花落谁家?看数据量和训练时长吧!

随着 RoBERTa 模型的训练数据量和时长增加,效果也变得更好了。

4. 标题:Bridging the Gap between Training and Inference for Neural Machine Translation

  • 作者:Wen Zhang、Yang Feng、Fandong Meng、Di You、Qun Liu
  • 论文链接:https://arxiv.org/pdf/1906.02448

摘要:在训练时,神经机器翻译(NMT)利用 ground truth 词作为预测时的上下文,推理时则必须从头生成整个句子。这种带不带标注上下文的差异导致误差的累积。此外,单词级别的训练要求生成的序列与 ground truth 序列严格匹配,这导致模型对不同但合理的翻译进行过校正。

在本文中,研究者不仅从 ground truth,还从模型在训练中预测的序列采样上下文单词,并选择句子级别的最优预测序列来解决这些问题,其中预测语句是句子级别的最优选择。也就是说,翻译模型不再逐词对比标注而确定损失函数,它会考虑同一句话不同的译法。

推荐:这篇是 ACL 2019 最佳长论文,提出了新的机器翻译方法。作者来自中科院等机构。

5. 标题:Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment

  • 作者:Nanjiang Jiang、Marie-Catherine de Marneffe
  • 论文链接:https://www.aclweb.org/anthology/P19-1412

摘要:推断说话者承诺(又称为事件事实)对信息提取和问答非常重要。在这篇论文中,研究者通过在挑战性的自然数据集上分析模型误差的语言学相关性,从而探索语言学缺陷驱动说话人承诺模型错误模式的假设。

研究者在 CommitmentBank 数据集上评估了两个 SOTA 的说话人承诺模型(speaker commitment model)。他们发现获取语言学信息的模型要优于基于 LSTM 的模型,这表明我们需要语言学知识来捕捉具有挑战性的自然数据。研究者表示按语言学特征划分的 item 揭示了不对称的错误模式:虽然模型在某些类别上取得了很好的表现,但它们无法泛化到自然语言中的各种语言学结构,例如条件句。

推荐:这篇是 ACL 2019 最佳短论文,论文说明了语言学规则(先验)对说话者承诺任务的重要影响,值得语言学或 NLP 研究背景的读者了解。

说话者承诺任务使用的数据集。

基于规则的、线性的、树结构的和混合模型的 Pearson r 分数和绝对平均误(Mean Absolute Error)分数。对比结果显示,基于语言学规则的模型比 bi-lstm(Hybrid)模型表现更好。

6. 标题:ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

  • 作者:Yu Sun、Shuohuan Wang、Yukun Li、Shikun Feng、Hao Tian、Hua Wu、Haifeng Wang
  • 论文链接:https://arxiv.org/pdf/1907.12412v1.pdf

摘要:近两年,以 BERT、XLNet、ERNIE 1.0 为代表的无监督预训练技术在语言推断、语义相似度、命名实体识别、情感分析等多个自然语言处理任务上取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。

百度研究者发现,之前的工作主要通过词或句子的共现信号,构建语言模型任务进行模型预训练。例如,BERT 通过掩码语言模型和下一句预测任务进行预训练。XLNet 构建了全排列的语言模型,并通过自回归的方式进行预训练。

然而,除了语言共现信息之外,语料中还包含词法、语法、语义等更多有价值的信息。例如,人名、地名、机构名等词语概念知识,句子间顺序和距离关系等结构知识,文本语义相似度和语言逻辑关系等语义知识。那么如果持续地学习各类任务,模型的效果能否进一步提升?这就是 ERNIE 2.0 希望探索的。

推荐:尽管 XLNet 等预训练语言模型取得了很好的效果,但中文语境缺乏相关模型。百度推出的 ERNIE 模型填补了这个空缺。现在 ERNIE 已进入第二代,依然是中文语境中效果最佳的预训练语言模型。

ERNIE 2.0 模型的结构示意。

7. 标题:DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks

  • 作者:Lin Zehui、Pengfei Liu、Luyao Huang、Junkun Chen、Xipeng Qiu、Xuanjing Huang
  • 论文链接:https://arxiv.org/pdf/1907.11065

摘要:变体 dropout 方法设计用于神经网络中的全连接层、卷积层和循环层,同时被证明可以有效地避免过拟合。作为循环和卷积层的一种良好替代选择,全连接自注意力层却缺少特定的 dropout 方法。本文旨在探索正则化 Transformer 中注意力权重的可能性,从而阻止不同的情景化特征向量出现互适应(co-adaption)。在一系列任务上的实验表明,DropAttention 可以提升性能,减弱过拟合。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一个模型库学习所有:谷歌开源模块化深度学习系统Tensor2Tensor

    选自Google.research 机器之心编译 参与:黄小天、李泽南 在谷歌提交热点论文《Attention Is All You Need》和《One Mo...

    机器之心
  • Kaggle首战斩获第三,看深度学习菜鸟团队如何一鸣惊人

    Women in Data Science 与合作伙伴共同发起了 WiDS 数据马拉松竞赛(WiDS datathon)。赛题是创建一个能够预测卫星图像上油棕种...

    机器之心
  • 学界 | DeepMind论文三连发:如何在仿真环境中生成灵活行为

    选自DeepMind 机器之心编译 参与:smith、黄小天、路雪 一只猴子在树林之间敏捷而灵活地跳跃穿梭,或者一名足球运动员快速带球过人、劲射得分,这些表现皆...

    机器之心
  • 秘籍 | 数据竞赛大杀器之模型融合(stacking & blending)

    叠(也称为元组合)是用于组合来自多个预测模型的信息以生成新模型的模型组合技术。通常,堆叠模型(也称为二级模型)因为它的平滑性和突出每个基本模型在其中执行得最好的...

    昱良
  • Python入门三部曲(二)

    如果不确定使用del语句还是pop()方法,有一个简单的标准:如果你要从列表中删除的一个元素,且不再以任何方式使用它,就使用del语句;如果你要在删除元素后还能...

    叫我龙总
  • Python网页编程(CGI)

    走到这里,跟C#语言进行处理,已经无多大的区别了。Python这种脚本式用来做服务端的数据提供者还是比较好。 Python语言在很多地方,特别是类型,类等方面跟...

    py3study
  • Python3简单实现多任务(多进程篇)第一种:进程池快速创建(适合创建大量进程,简单,推荐!)第二种实现方式(Process创建进程,需要手动管理)第三种实现方式(windows无法使用,只能在类U

    python多进程实现多任务 优点:稳定性高;提升程序执行效率 第一种:进程池快速创建(适合创建大量进程,简单,推荐!) ? image.png fro...

    zhaoolee
  • 记一次神奇的Mysql死锁排查

    说起Mysql死锁,之前写过一次有关Mysql加锁的基本介绍,对于一些基本的Mysql锁或者死锁都有一个简单的认识,可以看下这篇文章为什么开发人员需要了解分布式...

    用户5397975
  • 腾讯云服务器标准型 S2实例 S3实例区别在哪?如何选择?

    腾讯云服务器标准型 S2实例 S3实例区别在哪?如何选择?标准型 S2实例和 S3实例是腾讯云服务器中很常见和热销的两款机型,很多初次接触的朋友并不了解这两款机...

    魏艾斯博客www.vpsss.net
  • python交互模式下清屏

    在Linux shell中,清屏操作是clear;在Win cmd中,清屏操作是cls。

    py3study

扫码关注云+社区

领取腾讯云代金券