专栏首页新智元OpenAI 发现独特情感神经元,无监督学习系统表征情感取得突破

OpenAI 发现独特情感神经元,无监督学习系统表征情感取得突破

【新智元导读】 OpenAI 的研究员今天在博客上宣布,他们开发了一个无监督学习的系统,能够很好地对情感进行表征。在数据集 Stanford Sentiment Treebank上,他们获得了当下行业内最高的情感分析准度。现在论文和代码已经公开。在研究的过程中,他们还发现,算法中实际上存在着一种高度预测情绪值的“情感神经元”。研究结果对于迈向通用无监督表征学习是很有希望的一步。

OpenAI: 我们开发了一个非监督的系统,能够很好地表征情感。虽然研究中只是用亚马逊网站上的评论进行了训练,用于预测下一个字母。

一个线性模型使用这一表征,在一个小型但是被深度研究过的数据集 Stanford Sentiment Treebank上,获得了当下行业内最高的情感分析准度( 准确率达到91.8%,此前最好的只有90.2%),并且,这一非监督式的学习系统,在性能上也能与此前的监督式学习系统相媲美,使用的标签样本要少30-100倍。我们的表征还包含了一个独特的“情感神经元”(distinguish emotional neurons),这一神经元中包含了几乎所有的情感信号。

标签训练样本

我们的系统击败了 Stanford Sentiment Treebank 数据集上的最佳的方法,同时使用的数据量有大幅地减少。

标注示例的数量需要我们模型的两个变体(绿色和蓝色线条),以配合完全监督的方法,每个训练有6,920个例子(虚线)。

我们的L1正则化模型(在亚马逊评论中以无监督的方式预先训练)将多通道CNN性能与11个带标记的示例相匹配,并且使用最先进的 CT-LSTM Ensembles与232个例子相匹配。

我们非常惊讶地看到,我们的模型学习了一个可解释的特征,并且通过发现情感概念,简单地预测出亚马逊评论中的下一个字符。我们认为这种现象不是我们的模型所特有的,而是一些大型神经网络的通用性质,这些大型神经网络被训练来预测其输入中的下一步或维度。

方法

我们首先在8200万亚马逊评论的语料库上训练了4,096个单位的乘法LSTM,以预测一小段文本中的下一个字符。整个训练在四个NVIDIA Pascal GPU上花费了一个月的时间,我们的模型处理速度为每秒12,500个字符。

这4,096个单位(只是浮标的向量)可以被认为是表示模型读取的字符串的特征向量。在训练mLSTM后,我们采用这些单位的线性组合将模型转换为情感分类器,通过可用的监督数据学习组合的权重。

独一无二的情感神经元

在用L1正则化训练线性模型的同时,我们注意到,它使用了的学习单位令人意外的少。深入挖掘后,我们意识到,实际上存在着一种高度预测情绪值的“情感神经元”。

我们模型中的情绪神经元可以将评论归为负面或正面,即使模型只是被训练来预测文本中的下一个字符。

就像类似的模型一样,我们的模型可以用来生成文本。与这些模型不同,我们用直接拨号(direct dial)来控制产出文字的情绪:我们只是重新设置了情绪神经元的value。

由训练模型生成的合成文本的示例。以上,我们在确定情绪单元的value后,从模型中选择随机样本,以确定评论中的情绪。下面,我们还通过模型传递前缀“我无法弄清楚”,并选择高相似度样本。

例子

下图表示情绪神经元的字符到字符的符值(value),负值显示为红色和正值为绿色。请注意,像“最好的”或“可怕”这样强烈的指示性词语会引起颜色的特别大变化。

情感神经元以字符到字符的值为基础,逐个调整其value。

有趣的是,在完成句子和短语之后,系统也会进行大量更新。例如,在“约有99.8%的电影丢失”中,即使“影片中”本身没有任何情绪内容,“丢失”还有更新更新的消息。

无监督式学习

标签数据是今天机器学习的燃料。收集数据很容易,但可扩展标记数据很难得到。人们一般在性价比可观,或者重要程度够高的问题上才会去给数据做标签,比如,机器翻译,语音识别或自驾驾驶。

机器学习研究人员长期以来一直梦想着开发无监督的学习算法来学习数据集的良好表征,然后可以仅使用几个标记的例子就能解决任务。

我们的研究证明。在创建具有良好表征学习能力的系统时,在大量的数据中,简单地训练一个大型的非监督式“下一步”预测模型,可能是一种很好的方法。

下一步:迈向通用无监督表征学习

我们的结果对于迈向通用无监督表征学习(general unsupervised representation learning)是很有希望的一步。我们探索通过语言建模是否可以学习到优质表征,从而找到结果,并在精心挑选的数据集上扩大现有模型。然而,潜在的现象并没有变清晰,反而更神秘了。

这些结果对于长文档的数据集不是很强。我们怀疑我们的字符级别模型努力记住了数百到数千个时间段的信息。我们认为值得尝试用层次模型以适应他们的时间尺度。进一步扩大这些模型可能进一步提高表征、情绪分析和类似任务的保真度和性能。

这一模型处理越来越多的输入文本与评论数据分歧。值得验证的是,扩展文本样本的语料库可以获得同样适用于更广泛领域的信息表征。

我们的研究结果表明,存在一种设置使得超大的下一步预测模型(next-step-prediction models)能学到很好的无监督表征。训练一个大型神经网络以预测大量视频集合中的下一帧可能会得到对于对象、场景和动作分类器的无监督表征。

总的来说,了解模型的性质、训练方式和能够导致如此优秀的表征的数据集,这是非常重要的。

论文:


摘要

我们探索字节级递归语言模型的属性。当给予足够的空间、训练数据和计算时间,这些模型学习到的表征可以包括对应于高级概念的解决特征(disentangled features)。具体来说,我们找到一个执行情绪分析的单位。这些以无监督方式学习的表征,在 the binary subset of the Stanford Sentiment Treebank上达到顶尖的效果。它们处理数据效率也很高。当仅使用少量标签的示例时,我们的方法与在完整数据集上训练的强大基准线的性能相当。我们也展示了情感单位对模型的生成过程有直接的影响。简单地将其值设置为正或负,生成具有相应正或负情绪的样本。

下载论文请访问:https://arxiv.org/abs/1704.01444

代码地址:https://github.com/openai/generating-reviews-discovering-sentiment

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 图灵奖得主推荐新书:图模型手册(500页PDF下载)

    图灵奖获得者 Judea Pearl 在 Twitter 推荐了一本新书《图模型手册》,他认为,这本书很好地刻写了图模型领域自 20 世纪 80 年代成立以来是...

    新智元
  • 一个补丁就让淘宝京东商品识别系统彻底失效,北航博士论文入选ECCV 2020

    在与我们生活息息相关的零售领域,人工智能技术的到来极大地便利化了人们的零售购物方式。人们不在需要排队等待售货员人工扫码结账,只需要平铺所有商品,基于计算机视觉的...

    新智元
  • 【大咖解读Bengio笔记】邓侃:用深度学习模型,解构并重构人类思维

    【新智元导读】Yoshua Bengio 在 Arxiv 上发表了一篇题为《意识先验》的笔记。大数医达创始人、CMU 计算机学院暨机器人研究所博士邓侃专为此笔记...

    新智元
  • 我的职业是前端工程师【十】客户端存储艺术:数据存储与模型

    Web或者移动应用的重心,由后台往前台挪动的两个标志是:客户端存储,客户端模型维护。在可见的未来,我们将会见证后端将不存储数据、由前端负责存储数据的应用。 写过...

    Phodal
  • 【实践操作】:六步教你如何用开源框架Tensorflow对象检测API构建一个玩具检测器

    TensorFlow对象检测API是一个建立在TensorFlow之上的开源框架,可以轻松构建,训练和部署对象检测模型。 到目前为止,API的性能给我留下了深刻...

    AiTechYun
  • 米少熬好粥:数据有限时怎样调优深度学习模型

    所谓迁移学习,就是将一个问题上训练好的模型通过简单的调整,使其适用一个新的问题,可以认为是一种模型调优的“取巧”方法。可以类比人的举一反三能力。

    腾讯移动品质中心TMQ
  • 他在Google Brain实习了一年,总结出这么些心得

    作者 | Ryan Dahl 去年,在我研究TensorFlow出了一番成果后,我开始申请Google Brain的首届见习项目(Google Brain Re...

    AI科技大本营
  • 程序员想搞机器学习?看看Nodejs之父这一年摸爬滚打的心路历程

    本文是Nodejs之父Ryan Dahl在Google Brain做了一年深度学习后的心得体会,他在那里的目标是用机器学习将卓别林的老电影自动修改到4K画质。他...

    AI科技大本营
  • 如何生物转CS,并在斯坦福大学三年拿到PhD:独家专访李纪为博士

    机器之心原创 参与:李泽南 在人工智能逐渐成为热点的今天,各家科技公司与机构对于相关人才的需求也在不断增大。然而,机器学习目前仍是一个门槛很高的领域,很多计算机...

    机器之心
  • 【DL】Deep learning in all,深度学习不再困难

    这限制了深度学习的效果,将其限制在满足这些条件的少数项目中。但是,在过去的几年中,情况发生了变化。在Cortex(https://github.com/cort...

    yuquanle

扫码关注云+社区

领取腾讯云代金券