深度学习了40万个表情,一大波AI 表情包来了


新智元报道

来源:Arxiv

编辑:闻菲

【新智元导读】深度学习生成表情包,笑不笑由你。

自从有了表情包,跟人聊天时的第一反应,就是去找找看有什么适合的表情。

有一类表情包,形式是文字+图,尤其能够精妙地抒发和传递感情。

在这一点上,可能全世界的网友都一样。

好用的表情永远不嫌多,而且似乎总是不够用。

怎么办?

好在我们有深度学习。

表情包,一个天然的图说生成问题

斯坦福大学的Abel L. Peirson V和E. Meltem Tolunayl,在这一期斯坦福深度学习自然语言处理课程CS224n的期末作业中,提交了一个表情包生成器,使用深度学习,制作“图片+文字”型的表情包。

下面这些都是他们的系统自动生成的结果。不得不说,深得表情包制作精髓。

这个表情包生成器的基本的框架是一个编码器-解码器图说生成系统,先进行CNN图像嵌入,然后用一个LSTM RNN进行文字生成。

其中,编码器的目标是要给出一个有意义的状态,让解码器开始进行文字生成。他们使用在ImageNet上预训练的Inception-v3做为编码器模型,并将最后一层隐藏CNN作为编码器的输出。当表情包模板进入Inception模型后,输出是一组长度固定的向量,也即图像嵌入,能够反映图像的内容。这个图像嵌入之后会被投射到词嵌入空间里,方便后续文字生成。

他们一共尝试了3种不同的编码器模型,最简单的一种只输入图像,另一种输入图像和标签,最后一种的输入也是图像和标签,但使用了注意力机制。至于解码器,都是一个单向LSTM。这样搭配组合成了3种编码器-解码器方案。下图展示了第二种方案的模型。

学习40万个表情,幽默程度媲美人类

数据集是这个表情包生成器的精髓。他们的数据集由大约40万张带标签和图说的图片组成。其中有2600个独特的图像-标签对,是他们写Python脚本从Memegenerator.net中获取的。一张图片对应一个标签,标签是对这幅图的简单描述,而每张图都与很多不同的图说(大约160个)相关联。

下图展示了数据的样本:

在训练前,他们还针对图说中的标点、格式和某些词出现的频率等进行了预处理。

训练的结果,深度学习生成了各种表情:

系统看过的图像(左边4张)的输入标签是来自训练集的标签,而对于没见过的图像(右边4张),我们使用的句子是“AI是新的电力”。

从语法、搞笑程度和可区分性(分辨是人制作的还是深度学习生成的)几个维度判断,深度学习表情包生成器取得了不错的效果。尤其是搞笑程度,因为这一点是制作表情包的初衷,普通表情包的搞笑程度7分(满分10分),深度学习生成的表情包最高达到了6.8。

两位作者指出,幽默是很难评判的事情,本身就是一个很深的研究领域。他们的这项工作十分基础,接下来如果能构建出能够自动断句的表情包生成器(就是自动判断图片上方和下方两行文字从哪里断开),将会是一个很大的进步。(因为使用的都是网络热图,因此数据含有性别歧视和不文明的成分。)此外,探索视觉注意力机制在表情包生成中的作用,也是一个不错的研究方向。

相关论文和代码

  1. Dank Learning: Generating Memes Using Deep Neural https://arxiv.org/pdf/1806.04510v1.pdf
  2. Github:https://github.com/alpv95/MemeProject

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-06-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小小挖掘机

推荐系统遇上深度学习(十八)--探秘阿里之深度兴趣网络(DIN)浅析及实现

阿里近几年公开的推荐领域算法有许多,既有传统领域的探索如MLR算法,还有深度学习领域的探索如entire -space multi-task model,Dee...

2852
来自专栏人工智能头条

八大步骤,用机器学习解决90%的NLP问题

1663
来自专栏闪电gogogo的专栏

关于压缩感知的一些小原理

 压缩感知(CompressiveSensing, or Compressed Sensing)或译为压缩传感,或者称为压缩采样(Compressive...

2387
来自专栏新智元

谷歌大脑:混合专家层超大规模 AI,模型性能提升 1000 多倍

【新智元导读】谷歌大脑的这项最新研究作者包括 Geoffrey Hinton 和 Jeff Dean,论文提出了一个超大规模的神经网络——稀疏门控混合专家层(S...

3467
来自专栏新智元

【Nature重磅】谷歌AI自动重构3D大脑,最高精度绘制神经元

【新智元导读】AI能够映射大脑神经元。人类大脑包含大约860亿个神经元,并且一个立方毫米的神经元可以产生超过1000TB的数据。由于其庞大的规模,绘制神经系统内...

742
来自专栏新智元

【干货】18个技巧实战深度学习,资深研究员的血泪教训

【新智元导读】资深工程师 Nikolas Markou 回顾他多年来在一线使用深度学习的经验,总结出 18 个能让你充分发挥深度神经网络潜力的诀窍,简洁明了,直...

3357
来自专栏机器人网

深度学习知识框架--概率图模型

在实际应用中,变量之间往往存在很多的独立性假设或近似独立,随机变量与随机变量之间存在极少数的关联。PGM根据变量之间的独立性假设,为我们提供了解决这类问题...

1112
来自专栏人工智能头条

中文NLP用什么?中文自然语言处理的完整机器处理流程

人工智能头条早先发布的文章《用 Python 构建 NLP Pipeline,从思路到具体代码,这篇文章一次性都讲到了》,是基于英文来举例的。

1.1K5
来自专栏AI科技评论

干货 | 对端到端语音识别网络的两种全新探索

AI 科技评论按:语音识别技术历史悠久,早在上世纪 50 年代,贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起,传统的基于统计的 H...

964
来自专栏AI科技评论

大会 | 自然语言处理顶会NAACL 2018最佳论文、时间检验论文揭晓

AI 科技评论按:ACL、EMNLP、NAACL - HLT、COLING 是 NLP 领域的四大顶会。前三者都由 ACL(Association of Com...

1344

扫码关注云+社区