专栏首页量子位OpenAI最新成果:无监督情绪神经元(水军面临失业威胁……)

OpenAI最新成果:无监督情绪神经元(水军面临失业威胁……)

李林、舒石 编译自 OpenAI官方博客 量子位出品 | 公众号 QbitAI

OpenAI公布了一项最新成果:一个无监督的系统,很好的学会了表征感情。尽管这个系统目前只用亚马逊商品的顾客评价做了训练,能预测评价文本中的下一个字。

这项研究还发现一个独特的“情感神经元”,包含几乎所有的情感信号。

而且OpenAI这个模型可以用来生成文本,还能直接控制结果文字的情感……所以可能网上的人工水军们,正面临失业的威胁……

使用这一方法的线性模型,在Stanford Sentiment Treebank上,实现了目前最强的情感分析精度:91.8%。Stanford Sentiment Treebank是一个小型数据库,但被广泛用于这列研究,其上之前最好的成绩是90.2%。这一精度可以与有监督系统匹敌,而且可以少用30-100倍的标记数据。

为了让模型的两个变体(绿线和蓝线)能匹敌用6920个示例训练过的完全监督方法(灰色虚线),所需的有标注示例。OpenAI在亚马逊评论中以无监督的方式预训练的L1正则化模型,只需11个有标注示例就能达到multichannel CNN的水平,用232个有标注示例就能匹敌最先进的CT-LSTM Ensembles

OpenAI的模型本来是用于在亚马逊商品评价中预测下一个字,但是它学习了一个解释性(interpretable)的功能,还发现了情感概念。这让OpenAI的研究人员感到惊讶,他们认为,这不是他们模型所特有的现象,而是用来预测序列中的下一步或输入维度的大型神经网络的一般性质。

方法论

OpenAI首先在8200万亚马逊评论的语料库上用4,096个单位训练了multiplicative LSTM,以预测一小段文本中的下一个字。 训练在四个NVIDIA Pascal GPU上进行,花费了一个月,模型处理速度为每秒12,500个字符。

这4,096个单位(只是浮标的向量)可以被认为是表示模型读取的字符串的特征向量。 在训练mLSTM后,OpenAI通过采用这些单位的线性组合将模型转换为情感分类器,通过可用的监督数据学习组合的权重。

情感神经元

OpenAI这项研究还有一个独特的“情感神经元”,包含几乎所有的情感信号。

在用L1正则化训练线性模型的同时,研究人员注意到,它只用了很少的已学习单位。挖掘其原因的时候发现,实际上存在着一个对情感值有高度预测性的“情感神经元”。

模型中的情感神经元可以将评论归为负面或正面,虽然模型仅是被训练来预测文本中的下一个字的

和类似模型一样,这个的模型可以用来生成文本。 与这些模型不同的是,它能直接控制结果文字的情感:只需覆盖情感神经元的值。

以上表格中所列的,是由已训练模型生成的合成文本的示例。OpenAI的研究人员在确定情感单位的值以确定评价的感情色彩后,从模型中选择随机样本。下面,他们还通过模型传递前缀“我无法弄清楚”,仅选择高似然样本。

举个例子

下图表示情感神经元的逐字符值,消极值为红色、积极值为绿色。 请注意,像“最好的”或“可怕”这样强烈的指示性词语会引起颜色的特别大变化。

情绪神经元逐字调整取值

有趣的是,在完成句子和短语之后,系统仍会进行大量更新。 比如说“And about 99.8 percent of that got lost in the film”这个句子,即使“in the film”本身没有表达情感,系统还是在前面的“lost”之后、以及在句子结束后,将情感值向更消极的方向进行了更新。

无监督学习

目前,标签数据是机器学习的燃料。 收集数据很容易,但对数据进行可扩展的标注很难。只有在机器翻译,语音识别或自动驾驶这样的重要问题上,生成标签才能得到相应的回报。

开发无监督学习算法,学习数据集的良好表征,仅用少量标注数据解决问题,一直以来都是机器学习研究人员的梦想。

OpenAI的研究表明,在创建具有良好表征学习能力的系统时,简单地用大量数据训练一个大型的无监督下雨不预测模型,可能是一种很好的方法。

下一步

OpenAI的结果,是迈向一般无人监督的表征学习的重要一步。研究人员通过探索语言建模是否可以学习优质表征从而找到结果,并在仔细选择的数据集上扩大现有模型。然而,潜在的现象比没有更加清楚反而更加神秘。

这些结果对于长文档的数据集不是很强。OpenAI的研究人员怀疑他们的字符级模型努力记住了数百到数千个时间段的信息。他们认为值得尝试用层次模型可以适应他们的时间尺度。进一步扩大这些模型可进一步提高情绪分析和类似任务的表征保真度和性能。

越来越多的输入文本与评论数据分歧。值得验证的是,扩展文本样本的语料库可以获得同样适用于更广泛领域的信息丰富的表征。

这一研究结果表明,存在一种设置能让超大的下一步预测模型很好的学到无监督表征。可以训练一个大型神经网络以预测大量视频的下一帧,这可能会得到对象、场景和动作分类的无监督表征。

三个传送门

首先是论文地址https://arxiv.org/abs/1704.01444

OpenAI这项研究,也引发了广泛的讨论,量子位提供两个传送门:

Hacker News:https://news.ycombinator.com/item?id=14051851

reddit:https://www.reddit.com/r/MachineLearning/comments/63q744/r_learning_to_generate_reviews_and_discovering/

本文分享自微信公众号 - 量子位(QbitAI),作者:震惊

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 傅盛希望定义AI时代的机器人产品,2年交出这份可落地答卷

    3月21日,傅盛站上北京水立方,以猎豹董事长兼CEO身份,也以猎豹旗下子公司猎户星空之名,一口气发布了5款机器人产品,同时推出猎户机器人平台Orion OS。

    量子位
  • AI溃败,被Dota2职业战队打蠢!独家专访OpenAI:我们发现一个Bug

    今天早间进行的Ti8 OpenAI表演赛上,人类职业战队paiN Gaming,在5v5的Dota2人机大战首场战斗中,轻松击败OpenAI Five战队。

    量子位
  • OpenAI不Open:闭门造车、融资不断,深度报道再掀争议,马斯克:应该更加开放

    此前,创立于2015年12月的OpenAI,在短短4年间,已经成为全世界最具盛名的AI研究机构。但盛名之下,却也伴随着质疑:CloseAI?宣传太过火?

    量子位
  • 百倍利润封顶:OpenAI宣布转型为营利公司,Sam Altman任CEO

    这家成立于 2015 年的著名 AI 机构发出公告宣布成立「OpenAI LP」,这是一家新形式的「有限利润」公司,以此快速增加对于计算和人才的投资,同时 Op...

    机器之心
  • OpenAI研究所制定四大研究目标

    OpenAI是一家非营利人工智能研究公司,其使命是构建安全的人工智能,并尽可能广泛推广人工智能。OpenAI正在努力发展人工智能,并乐于与其他机构共享其方案及成...

    人工智能快报
  • 毫无还手之力!OpenAI人工智能5v5击败超凡5玩家(6600水平)

    2017 年 8 月,OpenAI 在 Dota2 TI 决赛现场以 1 对 1 solo 的方式击败了「Dota 2」世界顶级玩家。今年 6 月份,OpenA...

    机器之心
  • OpenAI还是CloseAI?记者半年揭秘这个以拯救世界为使命的机构幕后真相

    OpenAI成立短短四年,就已经成为世界领先的人工智能研究实验室之一,最重要的是,它因其使命而受到崇拜:它的目标是第一个创造AGI——一种具有人类思维的学习和推...

    新智元
  • OpenAI变CloseAI?非营利研究组织转型“上限利润”企业吸引资金

    2015年,马斯克与其他硅谷科技大亨决定共同创建OpenAI。创立初期,OpenAI自身定位是一家非盈利企业。希望能够预防人工智能的灾难性影响,推动人工智能发挥...

    大数据文摘
  • 隐秘?混乱?商业化?记者深入总部,探寻OpenAI“拯救世界”背后的真相

    2015年10月,硅谷“钢铁侠”Elon Mush和传奇投资人Sam Altman揽入10亿巨资,挥手成立了这个AI梦工厂。

    大数据文摘
  • OpenAI不Open:闭门造车、融资不断,深度报道再掀争议,马斯克:应该更加开放

    此前,创立于2015年12月的OpenAI,在短短4年间,已经成为全世界最具盛名的AI研究机构。但盛名之下,却也伴随着质疑:CloseAI?宣传太过火?

    量子位

扫码关注云+社区

领取腾讯云代金券