如何看待“把大数据变小”之观点

许多人无论是理解或不理解的情况下都把“大数据”为流行的口头禅的今天,出现了一种要“把大数据变小”的观点。如Contextere公司(一家创建专注人力绩效的人工智能驱动解决方案的软件公司)的联合创始人兼首席执行官Gabe Batstone认为与其向操作层人员提供尽可能多的数据不如将大数据变小。

种观点主是针对目前物联网 (IoT) 快速发展的现状提出的。随着各种传感器的激增,产生的数据比我们想象的更多,使得大数据呈新的常态。同时随着传感器变得更小、成本更低, 预料这一趋势将继续下去。从理论上讲, 大数据将使我们能够释放新的见解、扩大业务潜力, 提高效率并为企业/机构员工提供各种相关信息。然而, 在现实中, 如果各种机构没有适当的机制并部署系统来利用这些数据, 收集更多的数据不一定会产生预期的结果。而且, 即使我们部署了合适的系统,过多的数据通常会大大的提高计算成本且给执行层带来过度的分析或不是那么实用的信息(只给结果,没有成因),而工作人员往往需要的是可操作层面的信息,这样经常导致他们将三分之二以上的时间用于非生产性活动(如筛选数据、通过现象寻找成因)。

上述可见,这种观点道出了大数据有必要变小的一些原因。而个人认为,这种原因应不止这些。随着IoT的各种传感器进入更多的领域,其应用的挑战就愈来愈大。那么,还有哪些原因促使将大数据变小呢?下面从应用时间和应用对象(不同层级用户)两个维度进行提出个人见解:

1、应用时间的考虑:大数据的应用通常要分成实时、准实时和稳态三个部分。实时性的应用多数用于处理较为简单性的业务(如报警),事件处理器应该在现场,这里对诸如流数据的考虑主要是数据采样密度(采样率)的选择,要按最佳满足业务的需求的最低采样率设置数据的采集率。要知道,降低一个等级的采样率,处理和存储的数据可能就减半。应用的实时性越强,则需要利用的数据时间窗口长度就越短,通常这种情况难以用于预警。稳态的大数据应用通常可以通过机器学习建模并用于预警(测)。机器学习的过程中其输入数据不是多多益善,使用不适当的输入数据往往会导致不正确的学习结果,进而错误的分析和预测。通常要对数据进行筛选,挑选针对问题最敏感的特征参数进行学习,从这个角度来看,需要把“大数据变小”,否则无论是成本还是效果都可能有问题。

2、不同应用对象(不同层级用户)的考虑:不同的层级应用主要是指面向不同的用户群体对数据的要求不同。最基础层通常指的是操作层,该层对于数据的要求是实时性和可操作性强。这个层级不是真正要面向大数据的。其次生产运行和管理层,该层对数据的要求相对操作层的实时性更弱,而综合性更强。要通过大数据的应用实现过程优化和知识诊断。然而,在这个过程中是否是数据多多益善?其回答也是否定的。对于利用大数据的诊断和预测问题,需要针对不同业务的需求确定数据量的范围。譬如有些IoT数据,其采样率是秒级(甚至更小),如果要用此量级的数据预测可能变化缓慢的事件(如由于机械疲劳导致的设备故障或者某类生产的规律分析),此时就要把大数据变小(无论是数据采集和计算处理),否则其成本会大大提高。再者就是研究层。在该层种,需要利用大数据进行更广、更深度的分析,既需要宏观的又需要微观的。因此,从数据量来说,应该是多多益善。但在应用策略上说,就像前面所述,有时需要精选数据(譬如数据挖掘中的方法),从这个角度看也需要将“大数据变小”。最后就是决策层,这个层次需要的是宏观的、战略性的信息,因此,对数据的要求是综合性的成果数据,对于原始数据和过程数据的需求是不迫切的,“大数据变小”的观点也是适用的。

数据的话题是目前各行各业的流行语,甚至是电视电台的主持人,都会经常性的把“大数据”作为一种故显技术含量的噱头,这在一定程度上起到了误导大众的作用。因此,将“大数据变小”这种观点给人是另外的一种感觉,似乎道出了务实主义者的想法。

(茶歇IT,见仁见智)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181217G0FNY500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券