白话大数据 | 配图才是亮点啊~

这个时代,你在外面混,无论是技术还是产品还是运营还是商务,如果嘴里说不出“大数据”“云存储”“云计算”,真不好意思在同行面前抬头。但是,到底什么才是大数据?是Hadoop那头玩具小象?是千万级别的用户信息还是动辄XXXTB的数据量?

大数据的几大误区

1.误区一 大数据就是数据大

“光大是不够的!”当我掷地有声用这句话开场时,正好一个妹子推门而入,听到这句话,微微一怔,低头坐下。

如今在很多场合,一提起大数据,基本都会说“日处理数据量XXGB,上传图片XXGB,并发数XXX”“Hadoop集群拥有XXXX节点,总存储XXPB”……诸如此类的技术语言。但是不是数据大了,就可以达到大数据的境界,可以一起达到人生的大和谐了?

数据再大,不去使用,呆在机房里偏安一隅,那绝不是大数据,而是败家子。在这个问题上,传统的门户网站基本上就属于坐拥金山却无钱上青楼。无论搜狐新浪网易,每天的用户数以亿计,但是除了简单的广告呈现,并没有通过对数据的分析产生更多的价值。之所以没有提企鹅,是因为他们手里有最庞大的QQ用户,没推广但不代表没有做,例如当年推出QQ圈子的那种惊艳感,现在想起来还触目惊心。

而对于中小网站来说,不用盲目追求先进技术牛逼架构。首先需考虑的是商业运作和推广,只有用户量飙升见红的情况下,再去考虑技术升级。

2.误区二 懂大数据就必须要懂技术

“我不懂技术,我能学会大数据吗?”

大数据更多的是一种能力,而非技能,这种能力能从无尽的数据里看出商机看出价值。诸葛亮懂兵法,他知道该在哪里伏兵该在哪里生火,他不必知道关羽是如何耍大刀,也不必知道张飞杀人时,蛇矛是扎还是砍。

3.误区三 所有公司都必须懂大数据

我承认如果卖煎饼果子的大妈能开发一个APP,拿到客户对煎饼里薄脆是否爽口,辣椒酱是否够味的直接意见,那么很有利于产品的改进。但是你会为一个3元钱的煎饼去下载一个8M的APP吗?

而在移动互联网大会上,Evernote的CEO Phil Libin明确说自己产品的商业模式就是向用户收费,让他们甘心为产品体验付费,而不玩当下流行的大数据那一套。

知道自己能玩什么很常见,而知道自己不能玩不必玩什么更可贵。

4.误区四 数据越多越好

从陈冠希到李宗瑞,无不透露出浓浓的收藏癖。那些被大家藏在硬盘深处的姑娘们,真的有重见天日的一天吗?无论东京热还是加勒比,由来只有新人亚买碟,有谁听得旧人COME ON?

而搜一搜“存款 贬值”的关键词,从“五十年前的百万变13块”,到“一万元存一年赔19元”都可以看出,钱必须要用才有价值,数据也是一样。

只有不停的使用数据,挖掘数据背后的关系和价值,才能如滚雪球一般,使数据之间的相互关系更丰富更完善。

大数据的核心思想

1.有什么不重要,怎么用才重要

Netflix公司利用大数据来拍《纸牌屋》的励志故事大家都听过无数遍。Netflix是美国最大的DVD与网络视频租赁网站,他们在国内有2700万用户,全球有3300万。他们从流媒体视频用户处收集到的数据是异常惊人的,每一次搜索,每一次暂停,每一次积极或者消极的评价,还有自己的位置数据设备数据社交媒体数据,在分析完这些数据之后,发现自己的这些观众都喜欢演员凯文-史派西,还喜欢导演大卫-芬奇,并且喜欢1990年的英国同名电视剧。三项综合在一起,Netflix就下定决心拍摄《纸牌屋》,并将数据分析运用得淋漓尽致。在Netflix的观影页面上,提供暂停后截图的功能,他们就依靠这种数据来判断观众更喜欢哪种布景和画面。

当然,这三个因素其实都有不稳定性,例如凯文-史派西也曾拍过只被评了4.2分的《弗雷德圣诞老人》,大卫-芬奇首次执导的《异形3》也成系列中口碑最差的一部。但是从概率上来说,这三个成功因素都包括的剧集更靠谱。

所以大数据的核心并不是拥有数据,而是拿数据去做了什么。也就是说你不能仅仅占有人家的身子,也要占据人家的心灵。

2.对数据的容错性更强,来源更加多样化

一个500M的用户数据excel表算不算大数据?曾经在做某款产品的用户筛选时,这么一个excel成功拖死我电脑三次,我当时愤怒的说:“KAO,这SB大数据!”现在想起来,我冤枉了大数据君,您受苦了。

真正的大数据,应该是从不同维度,不同途径过来的各种格式数据碎片,并不限于文字/视频/声音/位置/图片等。只有将不同维度的数据放在一起判断,得出来的趋势才有可能更真实。雷同的数据积累的再多,超过某一个限度之后,我们再从新样本上获得的有用信息就越来越少。而用简单点儿的话解释就是如果你已经交往过五个IT码农,那么第六个其实也不会新鲜到哪里去,倒不如重新调整方向,换个高富帅找点儿不同的刺激。

多样化的来源同样可以避免陷在一个死胡同里出不来。这两天淘宝首页给我推送的个性化广告除了情趣用品就是“花花公子”服饰大优惠,我不就是为了找素材和配图搜了一下“情趣用品”么?你们没完没了的给我推送这个,节操何在?

如果你们能拿到我小学老师的评语,初中老师的评语和操行评定,高中老师的评语和操行评定,通过对多个来源不同的数据源分析,那么你们给我推送的一定会是《钢铁是怎么炼成的》《雷锋日记》等好书。

3.拥有大数据的身,也要有大数据的心

以往的数据分析,更多的是精确的样本/深度的数据挖掘,“精确”就是其代名词。不符合规格的样本过滤掉,然后再深度挖掘数据字段间的关系,得出几个精确无比数字去做PPT,或者从一系列数据里精准的找到某个正一脸猥琐偷拍姑娘的人。

但是大数据更多的是通过对各种数据分析得出某种趋势,这种趋势不必过于精确,但是能让相关决策人有底气去做某项决定。大数据不重要,重要的是使用大数据的人。

因为哪怕面向完全相同的数据源,不同的人得出的结论或者决定也可能是截然不同的。三国赤壁大战,当庞统献计“若以大船小船各皆配搭,或三十为一排,或五十为一排,首尾用铁环连锁,上铺阔板,休言人可渡,马亦可走矣”时,同时听到这话的两个人,曹操下席而谢,“非先生良谋,安能破东吴耶!”,而徐庶却私下里扯住庞统“你好大胆,只恐烧不尽绝。”由此可见,“以人为本”是多么精辟的一句废话啊!

无论你NB还是SB,数据总在那里,不离不弃。

大数据应用瞎想

1.医疗服务

通过一系列的病历等数据,得出某一类人的健康趋势,例如“做IT8年”“每天加班6小时”“病中还坚持工作”“每天吃盒饭”“每天一包烟提神”“每天一杯咖啡提神”将这些标签具体到某一群人,然后个性化的推送一条如上图的信息。

还有人要加班吗?

2.罪案预警

通过对全市的历史罪案以及出警纪录得出城市各种罪案高发区域,例如剁手区/掏包区/性侵区……等等,每天发布提醒,推送到市民的手机/平板等所有终端。我相信性侵区的流氓早晚会不堪重负而投案自首的。

3.大龄青年相亲

此想法如果搭配上类似Google Glass的可穿戴设备就更棒了,在上百人的男女相亲大会上,你带着功能齐全的眼镜四处看妞,系统自动分析各种数据,帮你找到最搭配的另一半,按照匹配度自动走在一起。当然,如果那时红外线透视功能很发达,能加入匹配度最高可以付费看裸体的VIP功能就更棒了。

总结

连哄带骗白话了1个小时的大数据话题,回到工位不久,就有一个实习男生给我发来了下面一条消息:

“刀老师,听了你的大数据分享,我是否可以这么理解?大数据就是系统根据一个屌丝的年龄/身高/体重/穿衣风格/购物倾向等基本资料,加上以前看A片的频率/主演/风格/时长/快进次数,并且综合参考跟我一样的屌丝群体的女神/播放格式/地区等因素,当我打开电脑,自动给我推荐一部最合适我的A片?”

我看了这段话,久久不能平静。只有一首歌可以表达我此刻的心情。

“啊~~~~~~~多么痛的领悟!”

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复“每日一课”查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-08-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

为什么编程这么难?!

1433
来自专栏机器人网

盘点全球十大最先进的机器人手臂

自从上次用幻灯片展示机器人手臂之后,我们一直在搜寻更多的机器人手臂,截至目前我们发现了大量各种各样的相关产品应用在医药、空间和服务机器人,以及研发和组装线上。其...

32410
来自专栏知晓程序

小程序发布一个月,这 10 款最值得拥有!

1153
来自专栏mathor

“洛必达”or“伯努利”法则

2284
来自专栏ThoughtWorks

也谈“精益”|洞见

精益对大家来说都不陌生了,无论是最开始提取的丰田制造原型,还是后面延伸出来的物流供应链管理,再到近两年颇为流行的精益创业(Lean Startup),都在不停刷...

3447
来自专栏理论坞

Iphone的秘密起源故事

这个月是苹果推出第一款iPhone以来的10年,这一次iPhone将从根本上改变我们如何与技术,文化和互相交流。在这个周年纪念日之前,我们的编辑Brian Me...

3903
来自专栏FreeBuf

GPS安全性的一点科普

GPS的安全性并不是一个新话题。 最著名的例子恐怕要算2011年伊朗劫持美国无人机。2011年12月4日,美国的一架RQ-170无人机,在伊朗领空飞行。伊朗军方...

2338
来自专栏程序人生

智能硬件项目创业的陷阱

最近Techrunch上一篇:Hardware Case Study: Why Lockitron Has Taken So Long To Ship又戳中了我...

4079
来自专栏AI科技大本营的专栏

全网首发 | 告别语言交流,欢迎来到意念传输的时代(下)

这几天,我们在以全网最完整的编译、全网最迅速的动作,为读者带来科技人气王Tim Urban的Neuralink长文。 第一篇我们仔细剖析了神经网络的进化史; ...

4516
来自专栏CDA数据分析师

【思维】如何把“数据”转化成可以行动的“信息”

题目中的这个问题,我理解是个本质。在数据时代,数据不管从哪里获取、用什么工具获取,也不管数据规模是否够得上是“大数据”,也不管你用来分析和利用这些数据的是BI软...

1797

扫码关注云+社区

领取腾讯云代金券