师北宸:小机器成就大数据

师北宸,互联网从业者,科技专栏作者。

推荐关注师北宸移动互联网观点公众号:数字弥母 (digital_meme)

“数据是下一代设计。不考虑数据的产品将被被时代所淘汰。”帮助客户检测与分析移动与web用户数据与行为的Mixpanel公司CEO Suhail Doshi如是说道。Mixpanel是硅谷最成功创业孵化器Y Combinator的2009年夏季毕业生,并于去年获得安德森·霍洛维兹(Andreessen Horowitz)领投的超过1000万美元的A轮投资,在Mixpanel官网最显眼处,写着:“Actions speak louder than page views.” 即“用户行为远比网站访问数更有说服力”。硅谷最具洞察力的孵化器和VC用钱投票出来的项目,点出了数据在移动时代的重要性,以及他们自己对数据的深刻理解。

访问数(独立访问数与总访问数)是传统互联网服务商最为看中的数据类型,比如门户完全基于流量变现,腾讯、百度以及奇虎360也仍处于粗放式利用数据阶段。根据IBM的报告,全球90%的数据是由过去两年内产生。根据IDC的计算和预测,2012年全球范围内产生了2.7ZB(相当于2^30GB,即1兆GB)的数据量,到2015年,将产生7.9ZB数据,而到2020年,讲产生35ZB之多的数据量,相当于2012年数据量的13倍。谁在驱动数据量的急速增长?

如果说过去两年中增长了占比90%的数据大部分仍然来自PC的话,未来的数据增长将更多来自可上网的移动设备,以及即将大量涌现的可穿戴式智能设备。智能设备的增长是一部分原因,更重要的原因来自未来人们日常中拥有的更多种类的设备,以及设备的更高的使用率,高使用率的驱动力来自于,更强的处理器,更高的存储容量,更快的网络条件,更廉价的网络资费,以及多屏多系统之间更为融合与互通的应用生态系统。

虽然中国4G网络还未开放,但就北美而言,4G网络带来的网络流量的增加非常明显。4G用户产生的数据量是非4G用户产生的数据量的20倍还要多。2012年全球只有不到1%的移动用户使用4G网络,但4G用户产生的数据量已经占移动数据流量的14%。随着中国这个全球最大智能手机市场对4G网络的推进——最近国务院总理李克强已经发话,年内将推动内地4G牌照的发放——移动设备将在未来一二年带来数据井喷。

数据量并不等于大数据,不过如果没有足够多的数据,大数据的“大”也就名不符实。我发在纽约时报中文网的《大数据时代》书评中粗暴的将大数据定义为很多很多的数据(IT术语日益增加且越来越玄乎,得为读者减负不是),而事实上,“大量的数据”(即“Volume”)只是大数据定义的一部分。一般而言,大数据还包括另外三个V:Variety(种类多样),Velocity(速度)以及远远未被充分认识及挖掘出来的最重要的V:Value(价值)。如果说前三个V是大数据的特征,那么最后一个V则是我们认识和理解大数据的目的。大数据挖掘的过程,就是高效收集、存储,并且管理、分析以及从中提炼价值的过程。数据无论大小,如果不去利用,那么它就是一文不值。——反而占据资源,提高成本。

以往PC时代,数据量更多发生在人与机器之间,即通过人主动操作生产的数据占主要部分。而移动时代的特点是,机器之间交流产生的数据占比将越来越多。比如过去一年以来开始流行的可穿戴式设备,比如Fitbit、Nike Fuelband、Pebble以及Google Glass甚至未来可能出现的iWatch,这些机器将制造越来越多的数据——记录你走路的步数,心率,睡眠质量,并自动与你的iPhone连接,在网络环境下传输到服务器,当你打开其它智能机器,这些数据又会再同步到你的电脑和平板上面。在整个量化自我的过程中,如果你还像我一样喜欢将个人数据都保存在Evernote上的话,仔细算算,这个过程将增长多少倍的数据量?人的时间和精力有限,几何级的数据增长,未来将发生在机器与机器通讯之中。

移动时代的入口在越来越小,应用一方面碎片化,另一方面各个碎片应用之间的功能连接度与数据互通程度也越来越紧密,互相依存、相互融合的趋势增加,这也为互联网带来更多式数据。相比于小数据时代的结构化数据,人们在更多碎片式应用中制造更多非结构化的数据。而如何从大数据中开采出更有价值的数据——用户行为,将是互联网服务商的下一个重要课题。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-02-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人称T客

怎样让你的移动APP人尽皆知?

 一、狠抓实用性,多关注用户的生活细节。   从用户的生活细节着手,发现未被满足的需求,再尝试植入产品。如星巴克推出的EarlyBird,下载后可以设定时间提醒...

2763
来自专栏DevOps时代的专栏

DevOps,让运维告别和业务的龟兔赛跑

距约今5亿4千万年前,地球正处于寒武纪的地质历史时期。在接下来的2000多万年时间内,各种各样的生物突然涌现,迅速起源、分化,被称为「寒武纪生命大爆发」。

1323
来自专栏CDA数据分析师

【零一】#操作教程贴#从0开始,教你如何做数据分析#初阶#第二篇#致小卖家和准卖家

大家好,我是零一。我的公众微信号是start_data,欢迎大家关注。今天是第二篇,但不是接着第一篇的。这一篇是中间加进来的,主要送给小卖家和准卖家们。仅用两个...

2039
来自专栏人称T客

在巨头环绕的云服务市场中,小型玩家如何找到自己的一亩池塘?

1615
来自专栏企鹅号快讯

给孩子挑礼物需谨慎:一个可爱的玩具可能把黑客带到你家

“用指尖改变世界” ? My Friend Cayla是一款长发及腰的智能洋娃娃,由美国玩具公司Genesis Toys生产。它可以与孩子们进行对话,并能够记住...

18910
来自专栏新智元

GitHub终于卖身了:微软75亿美元股票收购

1434
来自专栏PPV课数据科学社区

大数据企业想要成为行业巨头的5个要素

Navin Chaddha是早期阶段风险投资公司Mayfield的总经理。这家公司目前正在投资的一些公司包括Gigya、Elastica、Lyft、MapR和P...

3414
来自专栏机器学习之旅

总结:为什么要选择机器学习

场景1:如果在电商平台中入驻的商家想要卖出更多的东西就需要电商平台帮住通过push、短信甚至邮件的方式引流,提醒存在潜在购买可能的用户“来来来这家店不错”,通过...

611
来自专栏互联网数据官iCDO

2018,营销所面对的5大阻碍(3):垂直竞争

3.垂直竞争 ? 这几年我一直都有在撰写关于数字营销的垂直竞争:公司在营销人员和客户之间的不同点上的如何发挥作用并提取价值。 垂直竞争中最强大的“竞争对手”是那...

3697
来自专栏FreeBuf

企业对安全运营中心(SOC)的投入真的有用吗?

对企业用户而言,是否总会感觉,花了钱和时间搞的安全措施没有达到预期中的效果?这可能是很多企业高层的困扰。不过,至少有一个可能是例外:安全运营中心(SOC)已经在...

2697

扫码关注云+社区