谈谈大数据的那点事——流式大数据统计分析的思考

谈谈大数据的那点事 (13)

——流式大数据统计分析的思考

随着大数据产业的迅猛发展,国内外学界涌现了一批针对流式大数据应用和研究的成果。所谓流式大数据,指按照时间顺序无限增加的数据观测值向量所组成的数据序列,也可以将流式数据看成历史数据和不断增加的更新数据的并集。流式大数据包括多种数据,例如客户使用您的移动或Web应用程序生成的日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,航天水利设备传感器组监控、环境气象监测以及来自数据中心内所连接设备或仪器的遥测数据等等,并能在数分钟内就生成一个相当规模的更新数据集。数据对象的复杂化和动态化向数据分析工作者提出了新的挑战。

流式大数据具有四个特点:

1)数据实时到达;

2)数据到达次序独立,不受应用系统所控制;

3)数据规模宏大且不能预知其最大值;

4)数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。

从流式大数据的特点,我们可以了解到,流式大数据分析是数据分析的高级形式,但仍然依托于数据库、统计学、人工智能、计算机科学、以及信息科学等众多交叉学科。其中,统计学的理论和方法越来越受重视,各种统计方法也被广泛使用,例如决策树分类、近邻聚类、核估计、Bayes分析、广义估计、抽样理论、时序分析等等。可以预见,伴随着数据对象的日益复杂,统计学分析的优势越来越凸显,统计学在流式大数据分析中的地位也越来越重要。

但是,在流式大数据分析应用过程中,统计学也遇到了不少难题,例如高维流式大数据的降维问题、流式大数据的压缩问题和抽样问题、函数数据和高频数据的统计分析问题、数据丢失和异常发现问题、流式知识的稳定性与可靠性问题等。这些跨学科的研究问题既是挑战,更是推动统计科学发展的大好机遇。我们应该明确统计学在流式大数据分析研究中的趋势,以便地促进统计学更好地分析和解决在实际问题及理论研究中遇到难题。

我们从统计学理论和方法的角度来审视流式大数据分析的内容和方法,一方面有利于明确统计方法的应用现状和所面临的困难;另一方面可以引起统计学界对流式大数据分析的广泛关注,也有利于统计学方法研究的拓展和深入。

首先,我们应该考虑对流式大数据的统计描述。借助现在统计理论函数型数据的观点,对流式数据进行函数数据判别分析、函数数据主成分分析、函数数据的聚类分析、以及函数数据回归分析等。此外,还可以采用高频数据的观点,对流式大数据进行类似的分析。

第二,我们应该考虑流式大数据压缩。结合统计理论中时序分析的基本思想,对流式大数据中包含的不同性质、不同程度、不同周期的规律性特征进行分离,用适当的广义可加模型进行描述,并采用时变参数反映流式大数据的动态特征。另外,还可以利用粗糙集等知识推理方法进行约简,将大量不必要的细节信息泛化为若干代表性知识,实现知识泛化。

第三,我们应该考虑流式大数据的降维问题。从变量变换的角度, (1)在K-NN聚类的基础上,设计出合适的权重函数,使其既能满足降维的需要,又能充分反映时间变化的影响;(2)借鉴投影寻踪方法(pursue projection)的思想,在流式大数据的高维空间中找出最优线性基向量并将其作为降维子空间,同时把相应的线性变换矩阵作为原维度的权重矩阵。进一步地,还可以研究如何将这一思想推广到非线性情形,使之适合更一般的数据降维任务;(3)选择适当的基函数对流式数据进行拟合。在这些方法研究中,重点是如何设计具有时变特征的权重因子;(4)利用随机森林进行特征选择与构建有效的分类器以达到降维的目的等等。

第四,我们应该考虑流式大数据的可视化分析。可视化是反映统计分析结果的重要环节,在流式数据研究的过程中,对于复杂现象的统计分析结果,我们还可以通过计算机软件实现流式数据挖掘结果的可视化,并实现人机交互式的数据挖掘过程,使得分析结果更能体现使用价值。

流式大数据分析技术和方法研究的主要目的在于应用,在流式大数据分析中适当运用统计方法会显著提高数据分析的效率。同时,流式大数据分析中所出现的问题也将促进统计科学的进一步发展。

扫一扫左边二维码,

更多惊喜等着你。

............

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180419G1KAS600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券