学界 | OpenAI“;巧妙”发现无监督情感神经元,可利用文本检测用户情感

AI科技评论4月7日消息,OpenAI在官网公布了一项最新的研究成果,介绍了一个可以高效学习情感表征的无监督系统,目前能够预测亚马逊评论中的下一个字符。

研究人员采用了线性模型,在一个小型但是被广泛采用的数据集(Standford Sentiment Treebank)上取得了非常高的情感分析准确度:OpenAI得到的准确度为91.8%,而之前最好的是90.2%。这一表现可以匹敌之前的监督系统,而且少用了30~100倍的标记样本。

此外OpenAI表示,其模型的表征还包含了一个独立的“情感神经元(sentiment neuron)”,这个“情感神经元”包含了几乎所有的情感信号。

OpenAI称,“我们的系统在使用极少训练数据的情况下,比起其它同样用Stanford Sentiment Treebank测试的系统有着更好的结果。”

为了达到完全监督学习的效果,OpenAI的模型选取了两个变量来代表标记的样本(绿色和蓝色的线条),每一个变量训练6920个样本(灰色虚线)。OpenAI的L1正则化模型(利用亚马逊的用户评论以无监督的方式进行预先训练)只用了11个标记的样本,其表现就能够与多通道的CNN(卷积神经网络)相匹敌,而使用了232个训练样本之后,其性能甚至达到了非常先进的CT-LSTM Ensembles的水平。

OpenAI称,他们非常惊讶,因为模型学会了一个可以判断的特征,除了预测亚马逊用户评论的下一个字符外,实际上还能引出情感的概念。OpenAI相信,这种现象不是这一模型所特有的,而是一些大型神经网络的一般性质(共性),这些大型神经网络通常被训练用来预测输入中的下一步骤或者下一维度。

训练方法

AI科技评论了解到,OpenAI首先利用亚马逊上的8200万条用户评论,训练了一个有4096个单元的乘性LSTM(multiplicative LSTM,简称mLSTM),来预测一小段文本中的下一个字符。团队采用了4块英伟达的Pascal GPU,每小时能够处理12500个字符,训练总共花了一个月的时间。

这4096个单元(其实是浮点数组成的向量)可以看成是模型读取的字符串的特征向量。在训练mLSTM之后,OpenAI将这些单元进行线性组合,通过现有的监督数据学习组合的权重,将原本的模型变成了情感分类器。

情感神经元

在用L1正则化训练线性模型的同时,令人惊讶的是,OpenAI注意到它使用的学习单元其实非常少。进一步挖掘后,研究人员意识到模型中实际上存在着一种可以精准预测情绪值的“情感神经元”。

尽管这一模型仅被训练用来预测文本中的下一个字符,但是模型中的情感神经元却可以将评论归为负面或者正面两类。

和其他类似的模型一样,OpenAI的模型可以用来生成文本;但不同的地方在于,OpenAI可以通过重写神经元的值来控制合成文字的情感。

上图是训练模型生成的合成文本的示例。研究人员先确定情感神经元的值,然后从模型中随机选择样本,以确定评论中的情感。如下图所示,研究人员还通过模型传递前缀“I couldn’t figure out(我搞不清楚)”,然后只选择高度相似的样本。

示例

下图表示情感神经元代表的每个字符的值,红色的为负,绿色为正。其中“best(最好)”或者“horrendous(可怕的)”这样有强烈指示性的词语则会用更深的颜色重点标记。

值得注意的是,在完成句子和短语之后,系统会进行大量更新。例如,在“And about 99.8 percent of that got lost in the film”中,即使“in the film”本身没有任何情绪内容,但是在“lost”之后模型会进行一次负面更新,而在句子结束后还会有一次大的更新。

无监督学习

有标记的数据是机器学习的燃料。收集数据很容易,但是想要大规模地标记数据则很困难。只有在机器翻译、语音识别或者自动驾驶等具有切实效果和回报的领域,大规模地标记数据才是切实可行的。

长久以来,机器学习领域的研究人员一直梦想着开发出能够学习数据集的准确表征的无监督学习算法,希望用很少的标记数据就能够解决问题。OpenAI的研究意味着,在创建具有优秀表征学习能力的系统时,简单地利用大量数据训练大型无监督下一步预测模型(next-step-prediction model)很可能是一种不错的方法。

下一步

OpenAI的研究成果代表通用无监督表征学习又向前迈进了一步。研究人员在探索是否可以通过语言建模来学习高质量的表征时意外发现了这一结果,并在经过仔细选择的数据集上扩大了这个现有模型。然而,目前研究人员还不清楚这个潜在的现象的具体成因。

这些结果在长文档的数据上的表现并不是很好。OpenAI猜测,他们的模型难以记住数百乃至数千个时间步长的信息。他们认为,下一步可以尝试采用层次模型(hierarchical model),因为层次模型可以自适应相应的时间尺度。进一步扩展这些模型,还可能进一步提高表征保真度( representation fidelity ),以及在情感分析和类似任务方面的表现。

当输入文本和评论数据的差别越大时,该模型的表现就越差。值得验证的是,扩展文本样本的语料库能否获得适用于更广泛领域的同等信息量的表征?

OpenAI的研究结果表明,大型的下一步预测模型能够学会出色的无监督表征。利用大规模的视频集训练一个大型的神经网络来预测下一帧画面,可能会得到对目标、场景、动作分类器的无监督表征。

总的来说,理解模型、训练方式、以及数据集的属性是很重要的,因为它很可能会得到同样出色的表征。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 在线深度学习:在数据流中实时学习深度神经网络

3286
来自专栏AI科技评论

终于盼来了Hinton的Capsule新论文,它能开启深度神经网络的新时代吗?

AI 科技评论按:眼见“深度学习教父”Geoffrey Hinton在许多场合谈到过自己正在攻关的“Capsule”之后,现在我们终于等到了这篇论文,得以具体感...

28010
来自专栏新智元

OpenAI 发现独特情感神经元,无监督学习系统表征情感取得突破

【新智元导读】 OpenAI 的研究员今天在博客上宣布,他们开发了一个无监督学习的系统,能够很好地对情感进行表征。在数据集 Stanford Sentimen...

3529
来自专栏IT派

干货 | 机器学习之必知必会6个点

导语:过去两年中,我曾经多次折服于机器学习的魅力。但每当我决定尝试新事物时,经常会不得不重新学习某些概念和课程,其实大部分学习就是这样一个过程。在学习机器学习这...

3375
来自专栏机器之心

学界 | 微软&中科大提出新型自动神经架构设计方法NAO

从几十年前 [13, 22] 到现在 [48, 49, 28, 39, 8],无人干预的神经网络架构自动设计一直是机器学习社区的兴趣所在。关于自动架构设计的最新...

821
来自专栏新智元

【珍藏】了解CNN这一篇就够了:卷积神经网络技术及发展

【新智元导读】深度学习很火,说起深度学习中一个很重要的概念——卷积神经网络(CNN)似乎也人人皆知。不过,CNN究竟是什么,涉及哪些概念,经过如何发展,真正要有...

3438
来自专栏IT大咖说

艺术领域中的Tensorflow应用

摘要 本次演讲内容主要分为三个方面,首先会简单介绍一下Tensorflow,然后简单讲解可以用Tensorflow实现的深度神经网络算法,之后再介绍这些...

3686
来自专栏磐创AI技术团队的专栏

粒子群优化算法(PSO)之基于离散化的特征选择(FS)(一)

前言:在机器学习中,离散化(Discretization)和特征选择(Feature Selection,FS)是预处理数据的重要技术,提高了算法在高维数据上的...

3035
来自专栏人工智能

从基础知识到实际应用,一文了解机器学习非凸优化技术

选自arXiv 优化技术在科技领域应用广泛,小到航班表,大到医疗、物理、人工智能的发展,皆可看到其身影,机器学习当然也不例外,且在实践中经历了一个从凸优化到非凸...

20110
来自专栏新智元

【世界最大人脸对齐数据集】ICCV 2017:距离解决人脸对齐已不远

【新智元导读】在一篇已经被ICCV 2017接收的论文中,诺丁汉大学的研究人员提出了他们号称是迄今最大3D人脸对齐数据集,以及精准实现2D、3D以及2D到3D人...

3469

扫码关注云+社区