【AI头条&优质资源】中国AI生态报告,崛起的5大因素是?

『优秀课程精选』

  • 【纽约大学“机器学习导论”(2016)课程资料】《Introduction To Machine Learning, Spring 2016》链接:http://cs.nyu.edu/~dsontag/courses/ml16/ 『AI头条』
  • 《Global AI Hub? The V Factors Powering China’s Rise》(中国AI生态报告【崛起五大因素】)链接:http://simple-rules.com/vertex.pdf
  • 《Automation, Robotics & Machine Learning in Agriculture》链接:https://www.youtube.com/watch?v=LlKJj4QWxl0&feature=share
  • 《Google's DeepMind AI just taught itself to walk》(Google的AI学会自己走路了)链接:http://www.businessinsider.com/google-deepmind-ai-artificial-intelligence-taught-itself-walk-2017-7

『深度学习tips』

《如何评价 DeepMind 新提出的关系网络(Relation Network)?》

论文地址:(1)https://arxiv.org/abs/1706.01427;(2)https://arxiv.org/abs/1706.01433.

其他参考链接:https://www.jiqizhixin.com/articles/712d728a-d135-4c3a-b2a4-de6978274eee

https://deepmind.com/blog/neural-approach-relational-reasoning/

  • From zhihu by 周博磊

(终于更新完毕,一写就停不下来了 =,=!)好几位同学邀请了,那么我来梳理一下整个故事的来龙去脉,也随性八卦八卦。

先从Visual Reasoning说起。Visual reasoning是个非常重要的问题,由于ResNet等大杀器出现,visual recognition任务本身快要被解决,所以计算机视觉的研究方向逐渐往认知过程的更上游走,即逻辑推理。

于是出现了去年比较火的Visual question answering(VQA):给张图,你可以问任意问题,人工智能系统都需要给出正确答案。这是我之前做的一个简单的VQA demo (Demo for Visual Question Answering)。VQA任务的典型数据库是COCO-VQA(Introducing the 2nd VQA Challenge!),今年出了第二代。大家做了半天,各种lstm, attention-based model, stacked LSTM等等,发现其实跟BOW+IMG的baseline差不了太多;VQA还是被当成个分类问题,离真正人类级别的reasoning还很远。这里大家逐渐意识到了两个问题,第一个是网络本身的问题,即现有的卷积网络并不能很好的表达因果推断;第二个问题是,直接在自然图片上进行问答系统的研究太难了,很难debug整个系统,于是有了下面两个解决方向:

针对第一个问题,研究者开始在网络设计中explicitly加入reasoning or memory module. 比如说,去年有篇比较有意思的CVPR'16论文,Neural Module Networks( https://arxiv.org/pdf/1511.02799.pdf) , 很好地提出了一个可以让网络进行compositional reasoning的模块,概念挺漂亮。可惜的是调参能力一般,performance离我那个iBOWIMG的baseline也差得不远(参见https://arxiv.org/pdf/1512.02167.pdf)

另外,我觉得这篇论文也有一稿多投的嫌疑,因为这几乎一模一样的模型在作者另外一篇Learning to compose neural networks for question answering (https://arxiv.org/pdf/1601.01705.pdf)拿了NAACL'16的best paper 。作者Jacob我也认识,我就不多吐槽了,还好他不会看中文。。。

针对第二个问题,研究者开始通过graphics合成图片的办法来建立绝对可控的VQA数据库,这样就可以更好的分析模型的行为。Facebook AI Research几个研究者(Larry Zitnick和Ross Girshick)带着Feifei的学生Justin Johnson实习去年暑假搞了个合成的VQA数据库CLEVR(CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning)。CLEVR有100,000图片,~1,000,000个问题答案对。里面的每张图片都是通过Blender渲染生成,里面的物体基本属性是three object shapes (cube, sphere, cylinder), two absolute sizes (small and large), two materials (shiny, matte), four relationships (left, right, behind, in front)。然后问题也是通过从90个问题模板里面采样生成。 通过各种组合可以生成海量而且可控的问题答案,如下图所示。然后在这篇论文中,作者测试了一些VQA常用的baselines, BOW+IMG, LSTM啥的,表现都一般。那个暑假正好我也在FAIR实习,跟Larry和田总

@田渊栋

一起做项目。Larry是非常喜欢这种Neural module network和programming sytax的路子。跟Justin和Ross以及组里其他成员去Lake Tahoe那边hiking的时候也聊起了这个数据库,他们说你那个simple baseline for visual question answering在这个数据库上不管用了啊=,=!。另外,八卦下,Justin是Stanford的跳水运动员,Ross是户外运动达人,所以整个hiking过程中我费了牛劲,也再没见过这两位,望其项背而不得=,=!

后来,这篇CLEVR数据库的论文被CVPR'17收了。然后,同一堆作者再马不停蹄再交了篇ICCV'17 submission: Inferring and executing programs for visual reasoning (https://arxiv.org/pdf/1705.03633.pdf)。这篇论文也搞了个compositional model for visual question answering的模型。模型有两个模块program generator, execution engine,第一个模块来预测问题里面的program, 第二个模块来执行这些预测出来的program, 然后进一步预测答案。这两个模块还是蛮新颖的,打破了以前做VQA就用CNN叠LSTM的简单粗暴套路。这模型受之前那个Neural Module Network也影响挺大,也更符合CLEVR本身数据的生成过程。结合CLEVR本身的生成program, 这两个模块其实是可以分开进行训练。

在Table 1里面(如下图所示),作者测试了两种办法, Ours-strong是把CLEVR数据库本身的700K的生成program全部拿来训练(注:这篇论文的作者本来就是CLEVR的作者),然后可以得到牛逼的96.9%, 已经秒杀人类的92.6%准确度。然后Ours-semi方法,用更少量的18K和9K的program进行训练,也可以得到95.4%和88.6%的准确度。

这个训练过程其实蛮tricky。训练过程给的除了question-answer pair, 还给了生成CLEVR数据库本身的program, 这跟其他方法比较就不是这么fair了。另外,我觉得这个训练过程,其实是在训练一个新的网络reverse-engineer之前CLEVR数据库本身的生成程序。并且,这个reverse-engineering的复杂度挺低,用9k program训练就可以达到88.6%就是个证明。换句话说,对于这种自动生成的数据库,用好了方法和模块结构,也许挺容易刷到高分。这就为接下来的Visual Relation Network埋下了伏笔。

说了这么大堆东西,终于轮到DeepMind的Visual Relation Network module (https://arxiv.org/pdf/1706.01427.pdf)登场了。模型如下图所示,

如标题所示,模型结构确实很简单:LSTM编码question, 然后跟两两配对的spatial cell的deep feature叠加,然后后面接一些FC layers最后softmax分类到某个答案词上面。总结起来就是这个非常简单的两两配对的learnable module:

这样简单的模型,在CLEVR上达到了"惊人"的95.5%,比之前最好的CNN+LSTM+SA还要好差不多20%。这里作者并没有比较前面那篇ICCV submission里的96.9%,这是为什么了,作者解释说“ ...(ICCV method) uses additional supervisory signals on the functional programs used to generate the CLEVR questions" 。这种说法的确没任何问题,但这却能帮我们更好的理解模型。

这篇论文并没有给出任何解释模型为什么work, 以及内部到底学到了些什么东西(这是我自己很关注的一个问题)。我自己觉得这个relational module其实是implicitly学到了"the functional programs used to generate the CLEVR questions",也就是说,训练过后这个module可以很完美地reverse engineer那个CLEVR数据本身的生成过程。如果我是这篇论文的reviewer, 我会要求作者对模型进行可视化分析,可能里面的一些hidden units就是在做visual relation detection。

Relational module种explicitly表达两两物体关系的做法,跟之前DeepMind的那篇Spatial Transformer (https://arxiv.org/pdf/1506.02025.pdf)也有共通之处:CNN网络本身并不能很好地表达某些变换或者关系,所以需要一些特定的learnable的module结构来帮助表达和学习。可以预见这个relational module可以在很多结构化数据,如graph learning, structure learning等结构化数据上派上大用场。论文中也把模型在其他两个数据库任务bAbI model for language understanding(这个数据库其实早就被刷到100%了)和dynamic physical system reasonsing进行了测试,都取得了不错的效果。但是,这个module是真正解决了relationship detection的问题,还是仅仅只是利用short-cut来overfit数据库,还得等到人们在其他场合,如visual relationship detection(Visual Relationship Detection with Language Priors)等测试其有效性。

我自己是非常喜欢这样针对问题本身的关系进行建模,并且简洁有效的网络结构。再回头看看FAIR那篇ICCV submission, 是不是有种杀鸡用牛刀的感觉:)最近这一系列研究visual reasoning的论文都非常优秀,在引领着AI研究的时代潮流。大浪淘沙,最后能留下什么,咱们等着瞧呗。

另外,我再说说human performance。“ 超过啥啥human performance”,是好多公众号特别喜欢的搞大新闻的词汇。human performance其实很难公平测量,从ImageNet的human performance到这个数据库,一直如此。CLEVR这种自动生成出来的问题,真是如饶舌,人类受试者能答对到92.6%我都觉得挺了不起了,我随便列两个:

------------------------------------------

  • From zhihu by 田渊栋

最近实在太忙,今天抽空看了一下。

VQA这个方向一直以来都有惊喜,一开始大家想要模拟人脑分析问题的方式,加多阶段处理,加注意力机制,折腾拼凑出各种复杂模型;然后发现一个简单模型效果惊人的好,然后大家在这基础上再折腾复杂模型,又发现一个简单的模型更好,如此往复。目前看起来这篇是第三次了。

第一次是

@周博磊

的这篇Simple Baseline for Visual Question Answering(这篇我有署名,不过其实都是博磊做的),用一个简单到不能再简单的BoW+IMG模型,在VQA数据集上达到甚至超过了当时很多复杂模型的结果。

第二次是我们纽约分部做的Revisiting Visual Question Answering Baselines,又用一个简单模型(BoW+IMG+Answer encoding加两层全连接网络),再次把当时的各种复杂方法打趴下,特别是在Visual7W上把当时VQA的最好模型(Multimodal Compact Bilinear Pooling)一把干掉。

当时大家一致认为收集得到的数据集的偏差(bias)是最大元凶,所以才有了CLEVR这个人工生成的数据集,以期消去偏差。总想这样应该没什么问题可以好好在上面做点长期研究,结果嘛大家都看到了……

有人说这篇文章是照着CLEVR的特性去设计模型,有这样的结果不稀奇。这个不假,但是像ConvNet也是照着视觉的特性去设计连接方式,并达到了以前Vision Community做了很多年都达不到的效果。所以我觉得,可能这样的思路是很有意思的,与其把人类的分析过程一点一点强加给神经网络,不如给它适当的结构约束后让它在数据集上自由发挥,它能做的事情可能超乎你的想像。

------------------------------------

原文发布于微信公众号 - 深度学习与数据挖掘实战(www_datageekers_com)

原文发表时间:2017-07-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏marsggbo

DeepLearning.ai学习笔记(三)结构化机器学习项目--week1 机器学习策略

一、为什么是ML策略 ? 如上图示,假如我们在构建一个喵咪分类器,数据集就是上面几个图,训练之后准确率达到90%。虽然看起来挺高的,但是这显然并不具一般性,...

2255
来自专栏ATYUN订阅号

腾讯AI Lab开源了覆盖性广、准确性高的汉语词汇语料库

腾讯开源了一个语料库,为超过800万个汉语词汇提供了200维向量表征,即嵌入,这些词汇是在大规模高质量数据上预先训练的。这些向量捕获中文单词和短语的语义含义,可...

1545
来自专栏人工智能头条

Top 50机器学习项目实战总结

4262
来自专栏绿巨人专栏

机器学习实战 - 读书笔记(14) - 利用SVD简化数据

3159
来自专栏AI科技大本营的专栏

AI 技术讲座精选:数学不好,也可以学好人工智能(五)——深度学习和卷积神经网络

【AI100 导读】欢迎阅读《数学不好,也可以学好人工智能》系列的第五篇文章。如果你错过了之前的四部分,一定记得把它们找出来看一下!本文主要介绍了深度学习架构—...

40210
来自专栏CreateAMind

【前沿跟进】Google, OpenAI提出层次强化学习新思路

1031
来自专栏数据派THU

教你用PyTorch实现“看图说话”(附代码、学习资源)

6666
来自专栏积累沉淀

数据挖掘算法之深入朴素贝叶斯分类

写在前面的话:   我现在大四,毕业设计是做一个基于大数据的用户画像研究分析。所以开始学习数据挖掘的相关技术。这是我学习的一个新技术领域,学习难度比我以往学过的...

3558
来自专栏企鹅号快讯

2017深度学习优秀论文盘点

本文是伦敦帝国学院博士生Pierre Richemond所写的年度深度学习论文盘点,他属于该大学的BICV计算机视觉团队。这些论文在他们每周的Imperial ...

2547
来自专栏生信宝典

贝叶斯学习记录

这篇文章用于记录学习贝叶斯定理及其应用过程中的记录,希望由浅及深的提供一份自我学习教程。 引子 概率的定义:概率是一个0-1之间的数,代表了我们对某个事实或预测...

2206

扫码关注云+社区

领取腾讯云代金券