首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

海量数据中如何淘到真金

早上醒来,智能手环记录下我们的睡眠时间和睡眠质量。吃完早餐,匆匆挤上公交车或地铁,滴的一声,交通卡刷卡器已经记下了我们的上车地点和上车时间。一路上刷朋友圈、看新闻,手机又记录下了我们偏好的内容。下班后约朋友去吃饭,打开地图搜索附近的餐厅,又留下了我们的行动轨迹。

当今社会,数据已如空气和流水,无时无刻不围绕在人们周围。我们不仅享受信息时代带来的便利,而且如辛勤工作的蜜蜂一般,不断产生、贡献着我们的数据。

说到大数据,让我们把视线转向数百年前。1609年至1619年,开普勒通过整理、分析观测到的大量行星运动数据,发现了行星运动的三大定律,即椭圆定律、面积定律和调和定律。然而,这些规律的发现并不是一件容易的事情。开普勒首先把每一年同一时间的天象进行逐年对比,才得以消除地球自转、公转对数据带来的扰动,进而才发现了行星运动的基本运行规律。可见,就算我们有了大量观测数据,如果没有一双善于发现的眼睛,也是不能真正欣赏到良辰美景的。

那么,如何才能具有一双慧眼,欣赏云卷云舒的变幻莫测,感受自然世界和人类社会的多姿多彩呢?

我们要能够收集不同维度的数据,并且进行交叉融合。当前,互联网的发展很大程度上是由消费、娱乐、交友等基本需求驱动的。与之相应的是,在信息系统开发的过程中,我们更多考虑的是系统的安全性、稳定性,管理的便捷性,而相对忽略了不同维度数据之间的关联性。进行高效知识管理的绝大多数企业和组织,也面临类似问题。

相比不同维度的数据整合,不同平台数据的交叉融合分析具有更高的挖掘价值。比如,对汽车销售店而言,能否准确预测后几个月的销量对于汽车的订购十分重要。订购太多,容易造成产品积压,增加库存成本;订购太少,会拉长用户的等待时间,降低客户体验质量,乃至流失潜在的客户。如果我们能够将用户在不同社区的浏览、问答数据进行整合,并进一步将近期用户试驾数据进行分析,就有助于建立模型预测不同类型车辆在未来的销售规模。

在保证数据安全的前提下,建立大数据背景下的分析理论和方法体系日益重要。数据的统计分析是指利用样本数据和统计学方法还原整体数据的统计特征,通过这些统计特征还原数据所体现的世界面貌。以财富分布为例,经典理论通常假设社会财富分布是橄榄型的,即中等收入群体的人数占大多数、收入很多和很少的人都只占一小部分。

然而,实证数据发现,随着财富的增加,占有相应财富的人的比例在快速下降。在不同真实系统中发现的这一规律,对于我们认识、理解复杂世界中的简单规律非常重要。

除了宏观层次的系统统计分析之外,微观层次个体的身体状态、消费模式、学习习惯等高维、稀疏数据的分析,以及中观层次的消费模式、风险偏好、出行规律的数据统计分析,对于个性化智能服务、智慧楼宇管理乃至智慧城市的建设都具有重要意义。一定程度上可以说,海量数据的统计特征挖掘就如同给我们“雾里看花”的双眼戴上一个VR眼镜,可以全景式再现世界的特征。

然而,只是客观描述现实世界显然无法满足人类的好奇心和对未来的向往。五彩斑斓的现象背后,是否有未知的彩虹?如果说数据是蒸汽机、电力之外的另一种能够推动生产力变革的资源,那么如何深入挖掘其中蕴含的价值?如何让数据帮助每个人心中的小宇宙爆发呢?

如果将无处不在的数据比作散布在四周的金矿,那除了收集这些资源外,如何提炼高纯度的黄金进而加工成不同风格的金饰品、艺术品就是一门技术含量非常高的手艺了。

总之,对传统行业来说,数据时代的到来既是机遇更是挑战。小的组织和企业船小好调头,可以快速拥抱数据带来的生产力变革;大的组织和企业则如同航母,转弯都显得特别困难。我们的经济生态系统就在这种“大与小”的博弈、“快与慢”的竞争中,不断推陈出新、优胜劣汰。就此而言,数据变成生产力的时代终会到来。

文章与部分图片来源于网络,如有疑问,请联系删除

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180427B1C9K900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券