【大数据】世界沉醉在数据里

我在美国加州硅谷参加了第八届全球Hadoop技术峰会(Hadoop Summit 2015)。在短短的3天时间里我既见识到了Hortonwork, Cloudera, SAP, IBM,惠普,雅虎等25+数据服务技术提供商围绕大数据设计开发的产品,也聆听了Schlumberger(能源巨头),verizon(通信巨头),迪斯尼(娱乐巨头),Airbnb(共享经济代表企业),赛门铁克(信息安全巨头),Aetna(医疗保险巨头)这些各行各业的领军企业用数据产品为公司创造价值的真实案例。我最大的感受就是有这么多的公司相信数据的价值,并且真真切切地将数据作为企业的重要资产来维护和使用。简单地用峰会一位嘉宾,微软分管数据平台副总裁Ranga的语言总结--“世界沉醉在数据里” (The world is drunk on data)

第八届全球Hadoop技术峰会(Hadoop Summit 2015)会场掠影 什么是Hadoop? 自从我发了出席Hadoop技术峰会的朋友圈以后,就被小伙伴们各种“酷炫”“有用”的评论刷屏了。不过遇到了一个难点:如何向我妈解释“什么是Hadoop”这个问题。这个问题大概有点像向程序员解释CL的红底鞋到底好在哪一样难。作为一个接触了Hadoop一年的技术新人,我也还在摸索的道路上,不过幸好我们有亲爱的维基百科,在上面,Hadoop的定义是:一个用java语言编写的便于大型数据集合的分布式储存和计算的软件框架。简单来说,这是计算机领域的一个开源软件,任何程序开发者都可以看到它的源代码,并且进行编译。它的出现让大数据的储存和处理一下子变的快了很多,也便宜了很多。

Hadoop Summit 2015主题演讲中Hortonwork CEO Rob介绍Hadoop技术在企业级应用中所占的市场份额 Hadoop是怎么做到将大数据储存和处理变得又快又便宜的? 这个讲起来可以讲三天三夜呢。不过举个简单的例子,现在需要数一个图书馆有多少本书,一个人数肯定很慢,需要很多个人数,而且最好每一个区域的书都有2-3个人数一遍,这样统计的数量才比较准确。所以就需要有一个机制将书籍分好区,规定每一个人负责数哪几个区的书,这样即使有人生病了也不会影响到总体统计工作的完成。这里的人就是Hadoop所操控的一台台个人计算机,机制就是Hadoop的核心MapReduce方法。在我看来,Hadoop的分布式计算功能就像一个精明的资本家设计的工作分配制度,既保证工作的完成不会特别依赖某一个人,又保证了如果工作量上升了只需要再雇一个劳工就能解决问题。 什么是Hadoop技术峰会(Hadoop Summit 2015)? 要解释这个问题就要先解释一下Hadoop对于企业的重要性。ForresterResearch(一家著名的咨询公司)的首席分析师Mike Gualtieri在峰会中预测,100%的大企业已经或将在未来2-3年内开始使用Hadoop。不管你是能源,通信,医疗,娱乐,生产制造,互联网行业的企业,你的数据总是会越来越多,而如果需要从这些海量数据中挖掘出价值,提高企业的整体竞争力,你就需要一个强大的储存和处理数据的能力,Hadoop及其泛生态圈就能帮你实现!(真的不是在打广告。。)Hadoop技术峰会就是Hadoop的开发者和使用者交流的地方。峰会为期三天,期间有160多场讲座,有来自Aetna, Facebook,谷歌,微软,迪士尼,Airbnb等公司的各路技术大拿分享他们关于开发使用Hadoop的故事。通过讲座,自由讨论,聚餐,party等形式参会者会与来自39个国家的4000+的参会者进行沟通。某种意义上来说,Hadoop Summit就像是个宗教活动,虔诚的数据爱好者相聚在一起,看看你在做什么我在做什么,共同讨论关于数据的信仰。

Hadoop Summit 2015第一天下午讲座日程截图 技术新人如何最大化一场技术峰会的收获? 参加某一行业的峰会最重要的当然是了解行业趋势,都有哪些新的概念,这样慢慢得你才说得出内行话。这也是为了平常工作做准备,比如我,去年参加过InfoQ组织的QCon(全球架构师大会),大会内容大概听懂了30%,经过一年的工作学习和查字典(wiki),这次参加Hadoop峰会我大概能听懂50%,和同行交流的时候总算还能一句搭一句地深入讨论。 当然能问出好的问题也是峰会收益最大化的有效手段。我的兴趣主要在产品方面,所以主要听的是Hadoop技术在不同公司里的usecase(使用场景),同时我也总结了一下技术新人应该如何玩转这一类型的技术峰会的经验,特此分享:新的概念;围绕Hadoop的生态系统;人。 这些是我觉得作为一个掌握的知识还不够全面的技术新人在峰会上应该多投入的地方:看看行业里都有哪些新的概念,补充一下自己的专业字典;了解围绕某个技术的上下游提供商的发展情况,谁在开发什么样的软件,谁在为什么样的软件埋单,这有助于技术新人在参与设计产品的时候有个全局的概念;最后最重要也是最容易实现的,就是联络参会的人。大家都是付了昂贵的门票($900+)来参加这次峰会的业内人士,所以每个人都像一座金矿,都有自己领域的专业知识,都会遇到相似的问题,开放的交流说不定会让一直困扰你的一个问题找到全新的解法。除此以外,同行的交流也能让你不觉得孤独,很多你想尝试的做法也许能从别的公司的执行数据反馈中找到自信。

Hadoop Summit 2015参会者在白板(Job Posting Board)前查看有关Hadoop技术的岗位:雅虎在招人!苹果在招人!Uber在招人!….左下角我们唯品会美国研发中心也在招资深数据科学家哟! 下面就是我在这三个方面的一些收获:新的概念 概念一:“大铁遇到大数据”(Big Iron Meets Big Data) 这句话是通用电气负责软件的首席信息官Vince在峰会上提出的,总结的是这个时代大数据与物联网(第一阶段主要在工业物联网)将相辅相成。这从本次参会的公司名单上也能看出一二:医疗,能源,机械,通信这些传统行业纷纷粉墨登场,介绍他们在大数据/互联网方面的尝试。当然从我和参会人的讨论看来,目前这些传统企业的大数据运用还仅限于通过传感器搜集数据然后做数据分析,以后的发展还很长。

Hadoop Summit 2015通用电气首席信息官Vince的主题演讲中提到的关于物联网的惊人数据,Hadoop技术配合物联网将打开无限价值:到2020年为止,世界上有240亿台设备介入物联网,96%的企业领导表明在接下来3年要试水物联网,到2022年为止物联网将达到14.4万亿美金的市场。其中7大主要使用场景是:智能工厂,市场营销,智能电池,游戏娱乐,智能建筑,商用地面交通工具,医疗。 概念二:”世界沉醉在数据里” (The world is drunk on data”)

这个概念与“数据湖’(Data Lake)息息相关。数据湖是个相对年轻的概念,在它之前大家普遍接受的是“数据超市”(Datamart),意指在企业里将数据(水)像瓶装水一样过滤消毒打包好后便于各部门使用。与之相对应的,数据湖就是一个原始数据的聚合地,那些没有经过处理的数据都会被丢到一个容器里,只有当需要用的时候,才从这个数据湖里取用并做处理。这个湖的上下游的流淌是目前软件开发重点投资的地方。类似的概念还有“数据沼泽”。其他频繁被提到的词,欢迎大家自己百科~ Data Governance,Data Lineage,Data Dividend,Data wrangling 围绕Hadoop的生态系统 总体感觉就是原来对于这么多(至少30家)企业来说,数据和Hadoop就是他们赖以生产的资源和工具,如果说数据如水的话(参考上一段的“数据湖”概念),我至少看到了有水源勘探的公司,钻井的公司,打水,教人打水的公司,教人节水的公司,消毒水的公司,还有给水流情况做报表的公司。关键是“打水”和“教人打水”的公司(hortonworks)还上市了呢! 当然还是说点具体的技术,spark是大家热议的一个技术,从会场爆满的情况就可以看出大家的兴趣;Apache Drill是2015年5月发布的一个新的基于Hadoop的开源技术,最早起源于谷歌的dremel系统,它的主要优势是可以让人们实现对于分布式大数据的可交互的实时数据分析;Airbnb也自己研发了一套开源的流程管理平台Airflow,吸引了很多业界关注。

这次参会在party的时候认识了Hortonwork和Cloudera的人,总算了解两家是竞争对手关系。在听讲座的时候遇到一个可爱的印度小哥,一家公司为了雇佣他特地送给了他来参加hadoop summit的门票。中午吃饭的时候看我边上一个白头发老爷爷一个人吃饭挺孤单的,就聊了一下,他主要帮助通用电气做引擎系统优化。我们在对数据的处理方面遇到过同样的烦恼。后来回家一查,原来他是一家大数据初创企业的创始人兼首席技术官。像这样的例子非常多。。

除此以外,我还参加了“使用Hadoop的女性”(Women in Hadoop)活动,大多数参与的人都是开发使用Hadoop的女性同胞们,确实是Hadoop使用者中的“少数民族”。很经典的一件事就是一场讲座结束后男洗手间门口总是排起了长队,而女洗手间则根本没有这样的烦恼。另一个我们讨论的发现就是在12位主题演讲嘉宾中没有一位女性。但是,在技术讲座中凡是有女性参与的讲座,观众都很多,讲座很有条理,效果也非常好。这就说明并不是女性同胞不适合讲座,只是大家缺乏了解参与讲座的途径,也缺少发表演讲的鼓励。所以Women in Hadoop这个活动的目的就是围绕“女士当自强”为主题讨论一下我们可以做什么样的事帮助更多聪明的女性加入到hadoop技术的大军中。参加活动的还有一些男士,比如迪士尼负责magic bend数据开发的Caleb,他说他有一个女儿虽然很小但是对技术很感兴趣,问我作为年轻的女士有什么好的建议。最后我们通过每人30秒的自我介绍环节互相认识,加了LinkedIn,希望在以后的职业发展道路上能够互帮互助。

作者:郭安琪

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复“每日一课”查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-06-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏VRPinea

GDC 2018进行时丨战锤系列发布AR游戏,VR游戏《Bait!》亦推AR版本

335120
来自专栏数据的力量

“做过许多工作,却依然没啥能力” ——为啥?肿么办?

每天忙忙碌碌,从周一忙到周五,甚至周末两天还要加班。每天有做不完的工作,日复一日,年复一年,眼睛一睁一闭,在这个岗位上已经干了N年……突然有天意识到,我似乎工作...

14240
来自专栏机器人网

私人定制外骨骼助人省力行走,以后户外徒步就买它了

在一些科幻电影中,主角穿上动力服秒变超级英雄。现在,科研人员研发出一种“私人定制”的外骨骼系统,能让使用者更省力地行走。在动物学领域,外骨骼是指位于动物体外的骨...

29860
来自专栏程序员的知识天地

程序员吐槽:好多在阿里混不下去的去小公司当领导,只BB不干活!

公司其实就像一个江湖,能力有高有低,因此很容易造成彼此看不起的现象。有小公司的程序员就在网络上吐槽,称其公司来了阿里前员工,感觉就是个渣渣,天天只动嘴不干活,能...

23730
来自专栏腾讯大讲堂的专栏

秦亚林 :如何让用户爽起来——游戏交互设计

[核心提示] 做好一款游戏,第一,游戏情感与用户;第二,游戏音乐与画面的结合;第三,游戏关卡因素及合理节奏;第四,深度挖掘核心玩法;以及,排除非核心玩法因素对用...

22350
来自专栏凌帅的阅读思考与实践

荔枝分享逐字稿:凌帅被朋友11次震撼后的思考(398人收听)

这是凌帅最近在007班级做的分享,已经有近400人收听,分享出来,希望对大家有醍醐灌顶的启发(这是他们说的,不关我的事),荔枝分享链接:https://m.we...

20240
来自专栏Java程序员的架构之路

“面霸” 程序员的面试套路,这样拿到offer的几率提高60%

“你的优势是什么?”多年前我觉得这个问题很无聊,现在我经常这么问面试者,因为我真的想知道他的优势是什么,能给公司带来什么。最终能和面试官聊的开心愉快投缘的叫面霸...

16210
来自专栏大数据挖掘DT机器学习

Mango中国区数据总监:如何一步步走近数据科学

作者简介 李舰先生现任堡力山(PMI)集团副总,曾任Mango Solutions 中国区数据总监。 专注于数据科学在行业里的应用。擅长R语言的工程开发与...

34290
来自专栏VRPinea

异地买房怎么破?要不试试VR样板房

357100
来自专栏我是攻城师

如何在三个月内获得三年的工作经验?

497140

扫码关注云+社区

领取腾讯云代金券