Neurons字幕组 | 2分钟带你看懂李飞飞论文:神经网络是怎样给一幅图增加文字描述,实现“看图说话”的?(附论文下载)

Neurons字幕组出品

翻译 | 智博 校对 | 龙牧雪

时间轴 | 虫2 后期 | Halo

项目管理 | 大力

Neurons字幕组

第四期作品震撼来袭!

Neurons字幕组源自英文单词Neuron,一个个独立的神经元,汇聚千万,成就了四通八达,传递最in最酷炫信息的神经网络。

来吧,和Neurons一起,玩点不一样的AI!

还记得吗?9月26日GTC 2017北京场的舞台上,英伟达创始人黄仁勋展示了用英伟达GPU的识别器进行图像推理,可以在一秒钟识别560张图像▼

当你还在震惊AI识别图像的速度(当然还有对于花卉知识的储备量)时,我们今天要说的,则是AI识别图像的深度。神经网络不仅仅可以做到图像分类,还可以“看图说人话”!

想要一探究竟嘛?今天我们将用一个2分钟小视频,为大家介绍人工智能怎样结合卷积神经网络CNN与循环神经网络RNN,识别图像并输出一句完整的描绘语句!

在视频中出镜的论文是李飞飞的博士Andrej Karpathy大神与李飞飞合著的经典论文Deep Visual-Semantic Alignments for Generating Image Descriptions。

关注大数据文摘公众号,并在后台回复“神经元”,可直接下载本期论文。

请在WiFi下观看小视频,暂时无法观看的读者可以先收藏,或者下拉直接查看文字版要点,土豪请随意~

视频内容

神经网络是怎么看图说话的?

神经网络的一个分支——大名鼎鼎的卷积神经网络CNN由于适合人类的视觉机制,从而更加适合处理和分类图像。

在Karpathy开发的这个页面,你可以实时看到卷积神经网络的训练结果:http://cs.stanford.edu/people/karpathy/convnetjs/demo/cifar10.html

从这些模糊的图片中,算法试图猜测图片可以被归为哪类▼

如果这个神经网络被训练得足够久,它可以达到80%的分类准确率!现在尖端的研究技术能达到大概90%的准确率,仅仅比人类处理同样的任务结果差4%。这已经超(you)级(dian)厉(ke)害(pa)了!

但是更加厉(kong)害(bi)的还在后面!由于句子可以看成一个由单词构成的序列,因此我们可以用循环神经网络RNN来构建句子。

将CNN的读图术与RNN的构句法结合起来,我们用图像作为输入,句子作为输出,也就是算法能通过“看”一幅图,总结出图片的内容,生成对图片的文字描述,并输出一句完整的人话!

△通过RCNN,AI输出了“狗跳起来接住了飞盘”这样一句完整的人话

如果你觉得这还不够惊艳的话,准备好,接下来的内容将让你大跌眼镜:

看到下面这些图,算法识别出了“穿了橙色安全背心的建筑工人正在路上工作”、“一个男人正在投掷一个球”、“一条黑白相间的狗越过了横杆”▼

算法不仅能识别出来图片里的建筑工人,还能看出来他穿了安全背心,并且他现在在路上工作。它同样能看出来一个男人正在投掷一个球,尽管在图中“球”几乎不可见。

识别出狗“越过”了一个横杆就更了不起了,因为算法能区分“越过”和“钻过”(over/under),尽管它只看到了代表三维世界的二维图像。

当然也有很搞笑的识别失败的情况啦:

比如这个,“一个宝宝拿着棒球棒”▼

额,你们这届AI到底行不行啊?……看在宝宝这么可爱的份上,这次就算了╮(╯▽╰)╭

可是下面这个,就实在是让人哭笑不得……

一个宝宝和玩具熊躺在床上

(这个风骚的男人把AI都给耍了)

哈哈哈,这些是不是很6呢?

戳这里就可以看到这个算法的更多“看图说话”结果:

http://cs.stanford.edu/people/karpathy/deepimagesent/generationdemo/(手动复制到浏览器打开哦,下同)

总而言之,我们5年前的科幻场景,已经被机器学习研究实现,何况这个学科的进展速度如此之快,我们现在了解的也只是些皮毛而已。

在AI技术爆炸式发展的今天,我们几乎可以预计到不久的将来AI又多了一项迅速将视觉信息转变为文本信息的能力。不可思议的是,神经网络目前已经可以做到诸如创作音乐甚至莎士比亚式的剧本(想起了《异形:契约》里面的大卫了有没有?)。今年二月,美国罗格斯大学(Rutgers)的艺术与人工智能实验室(AAIL)的AI,就创造出了一系列“更新颖”、“更具艺术审美吸引力”的画作,并且通过了图灵测验。

如果你想追踪更多的相关信息,请持续关注Neurons字幕组,我们将为你带来更多的干货!

论文下载

点击文章右上角关注“大数据文摘”,进入公众号,在后台对话框内回复“神经元”三个字,你将会得到我们送出的大礼包:往期所有Neurons字幕组2分钟小视频系列的原版论文合集!

同时,本期视频中介绍的论文作者Karpathy已经在GitHub上提供了项目源代码:https://github.com/karpathy/neuraltalk2

感兴趣的同学可以到Karpathy本人的主页查看论文内容:http://cs.stanford.edu/people/karpathy/deepimagesent/

Karpathy目前是特斯拉的AI主管,在自动驾驶方向担任关键角色,此前他曾在Tesla CEO埃隆·马斯克(Elon Musk)发起的非盈利机构OpenAI工作。他在斯坦福大学获得了计算机视觉的博士学位。

作为斯坦福教授李飞飞的博士生,Karpathy也是李飞飞的斯坦福CS231n Convolutional Neural Networks for Visual Recognition课程的助教兼讲师。

大数据文摘去年获得这门明星课程翻译授权,现已全部译制完毕并免费发布于网易云课堂,戳这里就可以看到带有中文字幕的课程视频啦:http://study.163.com/course/introduction/1003223001.htm

小编就想问,马斯克分分钟要上火星,还要开发洲际火箭,Karpathy大神你开发的无人车啥时候能飞起来?

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-10-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏网络

Arxiv网络科学论文摘要14篇

祝大家新年快乐! 意见动态中的交叉问题团结与真相收敛; 普查与第二定律:美国众议院最优分摊的熵权法; 基于主体的模型的特征; Power Plexus:基于网络...

21280
来自专栏大数据文摘

为什么说GANs是一个绝妙的艺术创作工具?

我是一个艺术家,同时也是一位开发者。艺术和软件在我的生活中曾经是两个平行的轨道,直到我发现了GANs(Generative Adversarial Networ...

12320
来自专栏AI科技大本营的专栏

移动应用AI化成新战场?详解苹果最新Core ML模型构建基于机器学习的智能应用

Google刚刚息鼓,苹果又燃战火!这一战,来自移动应用的AI化之争。 近日,苹果发布专为移动端优化的Core ML后,移动开发者对此的需求到底有多强烈?去年大...

37070
来自专栏hadoop学习笔记

Hanlp实战HMM-Viterbi角色标注中国人名识别

这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真...

11400
来自专栏AI科技评论

前沿 | IBM发明世界首个人造神经元,离人脑模拟更近一步

受人类大脑运行方式的启发,IBM苏黎世研究中心制成了世界上第一个人造纳米级的随机相变神经元。并在其基础上构建了由500个该神经元组成的阵列,让该阵列模拟人类大脑...

30580
来自专栏专知

张翼英:一点论文写作心得

【导读】论文是硕士博士必修之关。我们转载一篇来自张翼英老师的论文心得文章! 本文来自张翼英科学网博客。 链接地址:http://blog.sciencenet....

42070
来自专栏AI科技大本营的专栏

人工智能在医疗领域的实践精选

导读:随着机器学习的不断发展,医疗领域也在发生巨大的变革,下面我们将对人工智能在医疗领域的实践做一个简单的介绍。 “数据挖掘即为深入分析数据直到得出满意结果的过...

30840
来自专栏大数据文摘

大咖 | 斯坦福教授骆利群:为何人脑比计算机慢1000万倍,却如此高效?

10120
来自专栏新智元

【干货】如何成为深度学习专家的七大步骤

首先为用Buzz做为点击标题的诱饵道歉,但是它确实是起到了一定的作用,并且吸引了大批读者来阅读此文章。 在我们的工作中,经常被问及的问题之一就是“从哪里开始学习...

37980
来自专栏AI科技评论

资源 | AI Challenger 2018 即将进入决赛,八大数据集抢先看

AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主题是「用 AI 挑战真实...

23520

扫码关注云+社区

领取腾讯云代金券