深度学习了40万个表情,一大波AI 表情包来了


新智元报道

来源:Arxiv

编辑:闻菲

【新智元导读】深度学习生成表情包,笑不笑由你。

自从有了表情包,跟人聊天时的第一反应,就是去找找看有什么适合的表情。

有一类表情包,形式是文字+图,尤其能够精妙地抒发和传递感情。

在这一点上,可能全世界的网友都一样。

好用的表情永远不嫌多,而且似乎总是不够用。

怎么办?

好在我们有深度学习。

表情包,一个天然的图说生成问题

斯坦福大学的Abel L. Peirson V和E. Meltem Tolunayl,在这一期斯坦福深度学习自然语言处理课程CS224n的期末作业中,提交了一个表情包生成器,使用深度学习,制作“图片+文字”型的表情包。

下面这些都是他们的系统自动生成的结果。不得不说,深得表情包制作精髓。

这个表情包生成器的基本的框架是一个编码器-解码器图说生成系统,先进行CNN图像嵌入,然后用一个LSTM RNN进行文字生成。

其中,编码器的目标是要给出一个有意义的状态,让解码器开始进行文字生成。他们使用在ImageNet上预训练的Inception-v3做为编码器模型,并将最后一层隐藏CNN作为编码器的输出。当表情包模板进入Inception模型后,输出是一组长度固定的向量,也即图像嵌入,能够反映图像的内容。这个图像嵌入之后会被投射到词嵌入空间里,方便后续文字生成。

他们一共尝试了3种不同的编码器模型,最简单的一种只输入图像,另一种输入图像和标签,最后一种的输入也是图像和标签,但使用了注意力机制。至于解码器,都是一个单向LSTM。这样搭配组合成了3种编码器-解码器方案。下图展示了第二种方案的模型。

学习40万个表情,幽默程度媲美人类

数据集是这个表情包生成器的精髓。他们的数据集由大约40万张带标签和图说的图片组成。其中有2600个独特的图像-标签对,是他们写Python脚本从Memegenerator.net中获取的。一张图片对应一个标签,标签是对这幅图的简单描述,而每张图都与很多不同的图说(大约160个)相关联。

下图展示了数据的样本:

在训练前,他们还针对图说中的标点、格式和某些词出现的频率等进行了预处理。

训练的结果,深度学习生成了各种表情:

系统看过的图像(左边4张)的输入标签是来自训练集的标签,而对于没见过的图像(右边4张),我们使用的句子是“AI是新的电力”。

从语法、搞笑程度和可区分性(分辨是人制作的还是深度学习生成的)几个维度判断,深度学习表情包生成器取得了不错的效果。尤其是搞笑程度,因为这一点是制作表情包的初衷,普通表情包的搞笑程度7分(满分10分),深度学习生成的表情包最高达到了6.8。

两位作者指出,幽默是很难评判的事情,本身就是一个很深的研究领域。他们的这项工作十分基础,接下来如果能构建出能够自动断句的表情包生成器(就是自动判断图片上方和下方两行文字从哪里断开),将会是一个很大的进步。(因为使用的都是网络热图,因此数据含有性别歧视和不文明的成分。)此外,探索视觉注意力机制在表情包生成中的作用,也是一个不错的研究方向。

相关论文和代码

  1. Dank Learning: Generating Memes Using Deep Neural https://arxiv.org/pdf/1806.04510v1.pdf
  2. Github:https://github.com/alpv95/MemeProject

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-06-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

CVPR2018 | 新加坡国立大学论文:利用互补几何模型改善运动分割

选自arXiv 作者:徐迅等人 机器之心编译 参与:路、张倩 许多现实世界的场景不能简单地归类为普通的或者退化的,同时对场景的运动分割也不能简单地划分为基础矩阵...

2817
来自专栏绿巨人专栏

机器学习实战 - 读书笔记(14) - 利用SVD简化数据

2959
来自专栏CreateAMind

结构知识的泛化-从海马体学习的模型

2256
来自专栏人工智能快报

富士通推出优化深度学习应用的电路设计

据富士通公司官网报道,富士通实验室开发了一种具有唯一数值表示的电路技术,可以减少计算中使用的数据位宽,并能基于深度学习训练计算的特点,根据分布统计信息来自动控制...

2755
来自专栏深度学习

机器学习中的七大经典问题

这是最有名错误判断,现在的教科书几乎已经不再有这样的结论,但如果看15年、20年前的机器学习教科书,会有一个很有趣的结论:神经网络不能超过三层。这和我们现在说的...

39712
来自专栏机器之心

教程 | 用数据做酷的事!手把手教你搭建问答系统

选自TowardsDataScience 作者:Priya Dwivedi 机器之心编译 参与:Pedro、路 本文介绍了如何基于 SQuAD 数据集搭建问答系...

2707
来自专栏机器之心

入门 | 强化学习的基本概念与代码实现

2625
来自专栏企鹅号快讯

谷歌最新端到端语音识别系统:词错率降至5.6%,性能提升16%!

-免费加入AI技术专家社群>> 导读:谷歌大脑和Speech团队发布最新端到端自动语音识别(ASR)模型,词错率将至5.6%,相比传统的商用方法实现了16%的改...

2779
来自专栏小红豆的数据分析

小蛇学python(13)当我们拿到数据,该做些什么

当我们拿到数据集的时候,我们应该做些什么呢?在数据的汪洋大海中,你是否体会到了同在北上广奋斗的人们一样的在午夜的孤寂感?在充实着林林总总的数据表格中,你试图从中...

815
来自专栏机器之心

专栏 | 李沐《动手学深度学习》第一章:机器学习简介

4285

扫码关注云+社区