曝光:硅谷巨头们如何玩赚大数据

导读

今天要跟大家分享的文章来自曾小苏 Clara的《硅谷观察之大数据篇》,该作者是36氪驻硅谷首席代表,水瓶座B型血爱吃肉,传说中是个美女。在硅谷的一个月,她在 startups demo days 和各种大公司一日游中度日,她以为会逃脱国内各种会上各种“大数据”和挖掘机的梗,但万万没想到那里更甚。所以,本文发自繁华程度仅次于五道口的宇宙中心硅谷(呵呵呵呵~),与国内小伙伴分享大数据在那片土地上的真实生长状况。在上篇她着重为大家介绍了硅谷“大数据公司”的类型,下篇讲了硅谷四大不同类型的公司如何玩转大数据。

上篇 · 挖掘机和“改变世界的”大数据公司们

1什么是 “改变世界” 的大数据公司

难道有数据就叫大数据公司了?如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了?

是,但也不是。

归纳下硅谷“大数据公司”的类型大概如下:

  • 数据的拥有者、数据源:特点是业务优势能收集到大量数据,就像煤老板垄断一个地区的矿一样。其实大多数有能力产生或收集数据的公司都属于这类型,比如Vantage Sports和收集了PB级数据的包子铺。
  • 大数据咨询:特点是非常技术,提供从基础设施规划建设维护到软件开发和数据分析等的服务,但不拥有数据,比如Cloudera这家不到500人的startup是最著名的Hadoop架构咨询公司。
  • 做大数据工具的:比如AMPLab出来的Databricks和Yahoo人主导的Hortonworks。
  • 整合应用型:特点是收集拥有或购买一些数据,然后结合AI来解决更多实际的痛点。

可能从真正意义上来说,大数据公司应该只属于第四种类型:AI。

我相信未来是AI的,而AI的食物是数据。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用AI进行分析的能力会变得更为关键。

再看硅谷主打 AI 的公司,现在大致可以分成以下三类了:

  1. 分析用户行为,改进产品和营销的,比如 LinkedIn 的推荐系统和用 iBeacon 实现店内营销;
  2. 统筹大量分散个体,利用大数据实现精确有效的预测和规划的,比如 Uber 和前段时间出现的 Amazon Fresh 及 Grub Market;
  3. 分析识别各种类型的数据,开发更智能的设备和程序,比如 Google 大脑及无人车和以 Nest 为代表的智能设备等。

这些产品都有一个很明显的共性,就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合,因此认为之前所说的第四种类型的公司是最有希望改变世界的。

目前硅谷的创业公司正在探索新的应用领域和方法,比如说物联网这块。现在智能设备们才刚刚起步,Nest、被Nest收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候,大数据的威力才会伴随着巨大的使用规模而发挥出来。

展望一下未来的话,如果参照以前的技术革命和行业发展来看大数据,那么大数据的底层设施将会逐渐被隔离,被模块化和标准化,甚至是自动化,而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。

2硅谷公司的大数据运行现状

目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除Facebook 等几个很领先的公司外,大部分公司要么还没有能力自行处理数据,要么就是正在建立单独的数据处理部门,主要负责从数据基本处理到后期分析的各个环节,然后再送到公司内部的其他部门。

对于这些公司来说,建立一个单独的数据处理部门可能还有还路漫漫其修远兮。普遍来说,各公司自主建立数据处理平台存在着几个难点:

  • 没有足够优秀的数据工程师来组建团队
  • 没有足够能力整合数据
  • 没有易于操作的基础软硬件来支持数据分析

这几个主要难点使得大数据分析越来越专业化、服务化,以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存,数据分析平台建立,到数据分析,数据可视化等等各个环节的成本越来越高,这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务,而将更多的人才和资源放到核心业务的开发上。

另外,就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果,也需要数据处理可以self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程,也给众多的大数据公司提供了机会。

即使存在很多投机贴标签的人,即使一片片的大数据startups被拍死在沙滩上,即使Gartner预测大数据概念将被回归现实,但相信会有更多的人投入到大数据这个行业,开发出更智能,更有影响力的产品。毕竟,大数据本身,不像一个单纯的pitch那样,它能够保证的是一定可以中看并且中用。

下篇 · 硅谷巨头们的大数据玩法

本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据,其中包括了著名FLAG中的三家(Apple在大数据这块来说表现并不突出)。

1Evernote:今年新建AI部门剑指深度学习

Evernote 的全球大会上,CEO Phil Libin 提到,Evernote 的一个重要方向就是“让 Evernote变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的 Augmented Intelligence 团队(以下简称 AI team)。

是什么

Zeesha 是这个团队里元老级的人物:“我是在 2012 年加入 Evernote 的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在 AI team 的雏形。我们最开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。” 传统意义上的 AI 指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到 IA 则是让电脑进行一定量的运算,而终极目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。 这个区别也是 Evernote AI team 的亮点所在。作为一个笔记记录工具,Evernote 与 Google 之类的搜索引擎相比,最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。

从哪来

Zeesha 小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha 版的未来 Evernote 更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。

到哪去

不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是 Evernote用户的数据量。虽然 Evernote的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AI team并没有做跨用户的数据分析。 这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在 Evernote上面存了10个笔记,那Evernote也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用Evernote越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。

2Facebook:大数据主要用于外部广告精准投放和内部交流

Facebook 有一个超过30人的团队花了近 4 年的时间才建立了Facebook 的数据处理平台。如今,Facebook 仍需要超过100名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。

Facebook的一大价值就在于其超过13.5亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在2013年把部门的key foundation 定位成广告的精准投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台Atlas。

目前公司超过30%的团队,包括工程师、Product Managers、Business Analysts 等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。

小扎克在 2013年第一季度战略时提到的最重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能

  • 发布新的广告产品。比如类似好友,管理特定好友和可以提升广告商精确投放的功能。
  • 除与Datalogix, Epsilon,Acxiom和BlueKai合作外,以加强广告商定向投放广告的能力。
  • 通过收购Atlas Advertising Suite,加强广告商判断数字媒体广告投资回报率(ROI)。

3LinkedIn:大数据如何直接支持销售和变现赚钱

LinkedIn大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息,并直接用来支持销售并变现。其最核心团队商业分析团队的总监Simon Zhang说,现在国内大家都在讨论云,讨论云计算,讨论大数据,讨论大数据平台,但很少有人讲:我如何用数据产生更多价值,通俗点讲,直接赚到钱。

但这个问题很重要,因为关系到直接收入。四年半前 LinkedIn 内所有用户的简历里抽取出来大概有300万公司信息,作为销售人员不可能给每个公司都打电话,所以问题来了:哪家公司应该打?打了后会是个有用的call?

销售们去问Simon,他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。

Simon和当时部门仅有的另外三个同事写出了一个模型后发现:真正买LinkedIn 服务的人,在决定的那个环节上,其实是一线的产品经理,和用 LinkedIn 在上面猎聘的那些人。但他们做决策后是上面的老板签字,这是一个迷惑项。数据分析结果出来后,他们销售人员改变投放策略,把目标群体放在这些中层的管理人身上,销售转化率瞬间增加了三倍。

今天 LinkedIn的“猎头”这块业务占据了总收入的60%。是怎么在四年里发展起来的,他透露当时建造这个模型有以下这么几个步骤:

  • 分析每个公司它有多少员工。
  • 分析这个公司它招了多少人。
  • 分析人的位置功能职位级别一切参数,这些都是我们模型里面的各种功能。
  • 然后去分析,他们内部有多少HR 员工,有多少负责猎头的人,他们猎头的流失率,他们每天在Linkedin的活动时间是多少。

这是LinkedIn大数据部门最早做的事情。

Simon讲,公司内部从大数据分析这一个基本项上,可以不断迭代出新产品线。LinkedIn 的三大商业模型是人才解决方案、市场营销解决方案和付费订阅,也是我们传统的三大收入支柱。事实上我们还有一个,也就是第四个商业模型,叫“销售解决方案”,已经在今年7月底上线。这是卖给企业级用户的。LinkedIn大数据系统是一个牛逼的模型,只需要改动里面一下关键字,或者一个参数,就可以变成另一个产品。“我们希望能帮到企业级用户,让他们在最快的速度里知道谁会想买你的东西。”

4Google:一个闭环的大数据生态圈

2011年,Google推出了基于Google基础架构为客户提供大数据的查询服务和存储服务的BigQuery,有点类似于Amazon的AWS,虽然目前从市场占有率上看与AWS还不在一个数量级,但价格体系更有优势。Google通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了BigQuery可视化查询工具。抢占了大数据存储和分析的市场。

BigQuery和GAE(Google App Engine)等Google自有业务服务器构建了一个大数据生态圈,程序创建,数据收集,数据处理和数据分析等形成了闭环。再来看 Google的产品线,搜索,广告,地图,图像,音乐,视频这些,都是要靠大数据来支撑,根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。

单独说一下Google maps,这个全球在移动地图市场拥有超过40%的市场占有率的产品,也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落,对建筑物的3D视觉处理也早在去年就完成,这个数据处理的工作量可能是目前最大的了,但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户

Google还把Google+,Panoramio和其他 Google云平台的图片进行了标记和处理,将图片内容和地理位置信息地结合在一起,图像识别和社交系统评分处理后,Google能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。

大数据为Google带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的Google广告(AdSense)。当然,它是一把双刃剑,给站长们带来收入的同时,但如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。

除 Facebook 等几个很领先的公司外,大部分公司要么还没有自行处理数据的能力。最后附上两个例子,想说这边的大公司没有独立大数据部门也是正常的,采取外包合作是普遍现象

Pinterest:

Pinterest 曾尝试自行通过Amazon EMR建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,最终决定改为使用 Qubole提供的服务。在 Qubole这个第三方平台上,Pinterest 有能力处理其 0.7 亿用户每天所产生的海量数据,并且能够完成包括ETL、搜索、ad hoc query等不同种类的数据处理方式。尽管 Pinterest 也是一个技术性公司,也有足够优秀的工程师来建立数据处理团队,他们依然选择了Qubole 这样的专业团队来完成数据处理服务。

Nike:

不仅仅硅谷的互联网公司,众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是Nike。Nike从 2012 年起与API服务公司Apigee合作,一方面,他们通过 Apigee的API完善公司内部的数据管理系统,让各个部门的数据进行整合,使得公司内部运行更加顺畅、有效率。另一方面,他们也通过API开发Nike Fuel Band相关的移动产品。更是在2014年开启了Nike+ FuelLab 项目,开放了相关 API,使得众多的开放者可以利用 Nike 所收集的大量数据开发数据分析产品,成功地连接了Nike 传统的零售业务,新的科技开发,和大数据价值。

END

版权声明: 转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-04-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

实用!——你有搞清楚自己的客户数据吗?

两则轶事 前几天跟一位自媒体搞的不错的朋友聊天,这位朋友近期不太活跃了,用他的话讲:没啥好玩的了,粉丝已经有几万,粉丝发他的消息都懒得看。 炭岩建议他,应该多...

3247
来自专栏VRPinea

2017年VRPinea厂商年终回访报告(八):7663VR竞技平台

2587
来自专栏CDA数据分析师

传统企业大数据应用难落地?说穿了还是因为这3点

在中国,从2013年大数据元年始,上至国家总理,下至普通平民,大数据的词汇已经深入人心,大家都觉得大数据是个好事,但基本上都是叫好不叫坐,尤其是在传统企业中。现...

1867
来自专栏CDA数据分析师

大数据营销的三大流派:刻舟求剑、叶公好龙和甩手掌柜

【摘要】首先要强调一点,本文讨论的重点是大数据“应用”,尤其是针对企业营销的大数据应用,对于大数据技术本文会有少量涉及,但是对于大数据工程、大数据科学,这不是这...

1595
来自专栏企鹅号快讯

IT大咖说:2017年,我眼里的大数据领域惊喜

新年将至,对于2017年大数据领域的进展和变化,各位IT大佬们分享了一些他们眼中的惊喜事件。 Endpoint Systems创始人,Lucas Vogel 我...

18510
来自专栏养码场

07年进淘宝,从数据库到数据智能,袋鼠云CTO江枫用11年的时间证明:方向比距离更重要!

有人佩服他说走就走的勇气,有人羡慕他“预知未来”的能力。而许多一味低头研究技术的技术人,也许忘了不时抬头仰望星空,看一看自己在哪里,世界在往哪里走。看了江枫的故...

913
来自专栏罗超频道

200亿不是烧钱游戏?百度技术正在成为O2O关键变量

百度世界大会最受瞩目的当属“度秘”智能机器人秘书,它与用户语音对话,接收指令后帮助用户订咖啡、订餐厅、买电影票……这些可被归纳为获取线下生活服务。这是其与其他语...

3347
来自专栏PPV课数据科学社区

2014我国大数据发展分析报告

一、国内外大数据的发展状况及应用 1、大数据已深耕于经济领域且创造了巨大的经济价值 美国的大数据产业已经创造了巨大的价值,具体表现在: 1)大数据使美国医疗服务...

2914
来自专栏科技向令说

​响铃:效率至上的企业市场,协同沟通工具创业无有看头?

近年来,我国互联网行业呈现裂变式增长,无论是工作、学习还是生活,互联网都呈现出前所未有的渗透力。当C端消费级业务如社交、通信、电商、游戏等行业格局基本已定,B端...

381
来自专栏腾讯研究院的专栏

2014中国大数据发展分析报告

一、 国内外大数据的发展状况及应用 1、大数据已深耕于经济领域且创造了巨大的经济价值 美国的大数据产业已经创造了巨大的价值,具体表现在: 1)大数...

1878

扫码关注云+社区