观点 | 谷歌证明数据为王,初创公司们被泼上了一盆冰水

AI 科技评论按:上周我们报道了谷歌的一项研究 “数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头 - AI科技评论,它直观地体现了更多训练数据可以带来更好的结果,但连线(WIRED)的这篇文章就表示了对这一结果的担忧。AI 科技评论对原文编译如下。

上一周,谷歌又发布了一项破纪录的AI研究,不过这次的研究结果是对目前 AI 商业化热潮的一盆冷水。传统上大家都认为科技企业的生态系统是靠小公司颠覆大公司、大公司随之瓦解,从而保持创新和非垄断的,消费者和整个科技经济都逐渐变得越来越依赖这种模式。可是当科技竞争的武器成为机器学习,而机器学习又需要用海量数据训练的时候,想要正面打败一个科技巨头就会变得前所未有地难。

这项谷歌与CMU(卡耐基梅隆大学)合作进行的图像识别研究开支非常高,它占用了50个高性能 GPU整整2个月的时间,而且用到的带标签图像数量也达到了史无前例的3亿张(这个领域多数的研究用到的标准数据库大小仅仅是1百万张图像而已)。这项研究的目的是测试有没有办法继续提升图像识别的正确率,尤其不是靠优化现有算法,而仅仅靠十倍的、上百倍的数据。

实验结果是肯定的。在谷歌和CMU的研究人员用叹为观止的3亿张图片的新数据库训练了一个标准的图像识别系统以后,他们表示这个系统在多项图像理解测试中的表现都创下了新高。比如识别照片中的物体,算法的识别准确率和训练所用的数据量之间有明显的正相关。AI研究界的上空曾经盘踞着这个问题,“仅仅靠更多的训练数据能否从现有算法压榨出更多的潜能”,这次谷歌和CMU的研究结果就可以算是给出了明确的答案。

这种对于已经很多的数据还能得到“更多数据=更好表现”的结果提醒了大家,谷歌、Facebook、微软这样的拥有大量数据的科技巨头占据的优势可能要比之前普遍认为的还要大。目前看起来谷歌的3亿张图片的数据库带来的提升并不算大,训练数据从一百万增加到3亿也仅仅提升了3%的物体识别正确率,但是论文作者们表示,他们觉得可以把软件部分调整得更适合超大量的数据,从而进一步扩大数据量带来的优势。即便最后的结果没有那么理想,科技界中微小的优势也可能会带来显著的影响,比如自动驾驶汽车的视觉系统识别准确率继续提升一点点都举足轻重,产品的每一点点效率提升也都可以带来十几亿的营收增长。

对于把 AI 作为发展核心的公司们来说,囤积数据作为一种防御策略已经得到了充分的讨论和执行。谷歌、微软等等公司已经开源了许多软件甚至硬件设计,给更多人提供了丰富的工具,但是对喂给这些工具的数据却是越发守口如瓶。科技公司确实会发布一些数据,谷歌去年发布了一个来自7百万个YouTube视频的大型数据集,Salesforce也发布了一个来自Wikipedia的数据集用于让机器学习模型学习人类语言。但是 AI 开发实验室 Manifold 的合伙人、劳伦斯伯克利国家级实验室的访问学者 Luke de Oliveira说,(正如我们所想的那样)这些公开的数据对潜在的竞争者来说往往没有多少价值。“那些会影响自家产品保持市场地位的关键数据,他们是永远也不会公开的”,他说。

谷歌和CMU的研究者确实表示他们希望这项对于海量数据价值的研究可以催生出跟谷歌的数据规模类似的超大规模开源图像数据集。“我们由衷地希望这项研究可以激励视觉研究社区重视数据的重要性,并且集合多方力量建立更大的数据集”,他们写道。CMU的 Abhinav Gupta也参与了这项研究,他说有一种方法是与通用视觉数据基金会(Common Visual Data Foundation)合作;这是一家由Facebook和微软发起的非营利机构,它就已经发布过一些开源图片数据集。

与此同时,手中数据少的公司如果想在数据的“富人”能靠数据变得更聪明的世界中生存下来,得自己变得有创意一点。初创公司DataRobot的CEO Jeremy Achin就猜测小公司们之间可能会共享数据来让他们的风险预测能力可以与体量大的竞争对手匹敌。这种做法以前在保险业中见过,未来可能变得越来越普遍,因为机器学习已经在越来越多的各界企业中展现了它的重要性。

未来机器学习的发展如果能够降低对数据量的需求,是有可能颠覆当下 AI 的“数据”生态的,Uber去年就收购了一家做这方面研究的公司。不过即便现在也可以尝试回避局内 AI 玩家的常见数据优势。一家研究如何提高机器学习易用性的公司 Fast.ai 的联合创始人 Rachel Thomas 说,初创公司可以另辟战场,在互联网巨头的视野之外寻找机器学习的应用场景从中获利,比如农业方面。“我觉得这些大公司不见得在每个地方都有很大的优势,其实许多特定领域内的数据根本就没人收集”,她说。在她看来即便是人工智能的巨头也会有盲点。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏EAWorld

元数据管理的未来趋势——企业级元数据管理(EMM)

经过这些年的发展,国内外厂商在元数据管理能力的建设上有了一定的经验积累,此篇文章分析了国内外市场现状,指出企业级元数据管理正吸引着越来越多的厂商关注,有望成为未...

3687
来自专栏PPV课数据科学社区

谁能做大数据工程师?

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。这群人在国外被叫做数据科学家(Dat...

2995
来自专栏机器人网

机器人如何躲避移动物体?MIT研究出了新招

麻省理工学院(MIT)日前发布了一种新的机器人算法,利用4D地图帮助机器人躲避移动物体。让机器人躲避固定障碍物可能已经不是什么难题,如翻过一堵 墙,绕过一套家具...

3069
来自专栏PPV课数据科学社区

【职场】跳槽基础篇——大数据工程师好做吗?

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。 这群人在国外被叫做数据科学家(Da...

2816
来自专栏Hadoop实操

刘汨春:AI大数据在企业全链业务中的应用和价值(上)

AI和数据科学就像硬币的两面,AI是从背面去看,数据科学是从正面去看。只要从数据中能得到智慧的科学,就是数据科学。AI理论有两条主线,第一条主线是浅层学习,或者...

672
来自专栏新智元

【巨头升级寡头】AI产业数据称王,GAN和迁移学习能否突围BAT垄断?

【新智元导读】AI时代,数据为王让巨头越来越难以被打败。谷歌和 CMU 的10亿+数据集的设想,似乎又将这一假设往前推进了一步。数据为王还是算法为王,这是人工智...

4006
来自专栏数据的力量

【前景】如何成为一名大数据工程师

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。这群人在国外被叫做数据科学家(Dat...

822
来自专栏数据猿

商汤科技联合创始人徐冰:人工智能的特殊商业模式探索(内附PPT)

数据猿导读 深度学习是如何做到的?算法在超过人类后,现在到底在哪些行业进行应用了?服务了哪些业务,比如安防监控、互联网金融、机器人等,它们是否已经在用,哪些地方...

3377
来自专栏数据的力量

当我们谈到大数据时,大数据工程师们谈些什么?

1106
来自专栏灯塔大数据

实录|中国电信云计算重点实验室执行副主任在《CDAS2016第三届中国数据分析师行业峰会》的报告

注: 2016年9月4日,CDAS2016第三届中国数据分析师行业峰会在北京国际会议中心成功举办,中国电信云计算重点实验室执行副主任杨明川主任,在峰会上做了题...

2677

扫描关注云+社区