大数据和“数据挖掘”是何关系?

从很久以前到现在,我们获取数据的能力以及分析数据的能力都是很有限的,这就导致,很多数据我们是无法在我们需要的时候采集到的,举一个例子:人口普查。近代美国要求10年进行一次人口普查,但是随着人口的增长速度越来越快,到后来统计出国家的大致人口都需要13年了。因此不能采用普查。因此我们必须使用另一种经典的方法,并以此方法达到通过获取少量数据就能够分析大规模问题的目的——抽样。我们都知道抽样调查是有各种各样的要求和准则,而且合理性也经常不如人意,但是在之前获取数据难度很大的前提下(只能亲自去看,一个一个人工考察),这种方法的确赋予了我们处理大规模数据的能力:从里面完全随机的(我们都知道这是不可能的)选择一些正确的(数据完全正确也是不可能的)数据进行分析。数据可以是很简单的,例如长度,温度,时间,重量等等;也可以是很复杂的,一本书,一张图,一个石头。之所以说这些数据复杂,是因为它们是由我们提到的诸如重量长度等等简单的数据构成的。那么,如果我们要分析石头的话,将会变得很困难——因为要处理的数据种类实在太多了,各种数据之间还存在这样那样的影响。这让我们计算能力严重不足的祖先们(只有笔和算盘,各种函数和公式都么有发明。)无比的抓狂。因为等我们用简单粗暴的方式算出来了以后,数据的有效期很可能已经过了(参见前面说的人口普查数据)。因此我们又发明了一个牛逼而经典的方法——建模。我们采用几个对描述这个对象很关键的数据来代替所有的数据,这样,计算量和计算难度都有客观的改善。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180131A09PXO00?refer=cp_1026

扫码关注云+社区