数据挖掘是伴随大数据时代崛起的一门新兴学科。与统计学、模式识别、机器学习等领域相比,数据挖掘是一个完完全全的新学科。它脱胎于上述三门学学科,专门用于解决大数据时代的问题。和其他学科相比,数据挖掘最大的特点就是它涉及到了海量数据。
在大数据时代到来之前,数据分析师搜集数据、分析数据的能力都有限,因此往往采用抽样的方法来研究数据分布,解决问题。随着技术的发展,数据分析师逐渐发现抽样虽然能提取出大部分的数据信息,但是有一些细微的信息却丢失掉了,这些细微信息中很可能蕴含着巨大的价值。
因此数据分析师开始更多的搜集全部数据并成功从中发现了之前没有发现的重要信息。这种全体替代样本的方法普及开后,大数据时代就到来了,而用于从海量数据中发现知识的方法则专门划为一个新学科,即数据挖掘。
量变引起质变,同样的算法在小数据量和大数据量上起到的作用是截然不同的。比如,在小数据量上相关分析总是作为一种辅助手段,起到帮助数据分析师了解数据结构的作用;但在大数据量上,它完全可以作为解决问题的一个独立方法,从数据中挖掘出有用的信息。与之相对的,回归分析本在小数据量上是一个应用广泛的算法;但数据量过大时,由于它计算复杂,反而不能收到较好的效果。
我们说的小数据量和大数据量并不是仅仅相差几十兆、几百兆的数据,而是相差了十几G的数据。人们制造数据、搜集数据的速度都在逐渐加快,数据量的巨大差距使得一些原本默默无名的算法崭露头角,也使得一些原本很实用的算法被抛弃。
由于糅杂了各个领域的算法,数据挖掘能够解决的问题也很广泛。它最擅长的是分类问题、预测问题、估计问题、关联问题和半结构数据挖掘问题。其中典型的问题如信用评价问题、物流跟踪问题、金融预警问题等都是热门而且复杂的问题,通过搜集大量相关数据和信息,数据挖掘可以从独特的角度解决这些问题。
本章介绍了判别分析、购物篮分析、马尔可夫链和AdaBoost元算法四种典型的数据挖掘算法,其中判别分析和马尔可夫链使用了大量统计分析的概念,购物篮分析则脱胎于模式识别算法,而AdaBoost元算法更是多个领域算法的结合。通过学习这些算法,读者能够更加清楚的体会到数据挖掘和其他领域的紧密联系。
此外,由于数据挖掘针对的是涉及大量数据的问题,而数据过大时单个计算机很可能负荷不起这样大量的运算,故而数据挖掘算法常常部署在多个并行计算的计算机上,因此数据库工程师和分布式计算工程师将是数据分析师不可缺少的同事。数据分析师自己学习一点数据库的知识和分布式计算的知识,也有助于数据分析师更高效的工作。
领取专属 10元无门槛券
私享最新 技术干货