通常我们把信息转化为价值,要经历信息、数据、知识、价值四个层面,数据挖掘就是中间的重要环节,是从数据中发现知识的过程。
什么是数据挖掘?
简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。
数据挖掘是一个用数据发现问题、解决问题的学科。通常通过对数据的探索、处理、分析或建模实现。
数据的类型。
所谓的数据集通常是指一堆数据对象的集合,而所谓数据对象就是用一组刻画对象基本特征属性的描述。
对于属性的描述我们需要根据属性的类型来确定,最常见的属性类型包括以下四种:
1、 标称型。这种属性的值仅用作区分不同对象,不存在其他任何意义,比如说名字或者ID。2、 序数型。这种属性的值提供了确定对象序的信息,比如说成绩或者街道号码。
3、区间型。这种属性的值的差值是有意义的,比如说摄氏或者华氏温度。
4、 比率型。这种属性的值的差值和比率都是有意义的,比如说绝对温度和年龄等
利用数据挖掘,我们还可以做非常多的事情。
发现数据项之间的相关性
比如我们拿到各个城市环境、人口、交通等数据,就可以通过相关性分析来看人均汽车保有量,和空气质量各个指标之间的关系,从而定量化地帮助制定产业经济和环保政策。
把数据对象进行聚类
我们知道大量的人在电子商务网络消费数据,我么就可以根据消费的特征把他们聚成很多类,每一类人我们制定不同的营销手段,从而能够取得销售量的提升。
预测缺失数据或者未来的数据
很多数据集中,比如生物数据,我们已知的知识全部数据集中的一小部分,这需要我们做一些事情去预测这些数据。
更多科技一手咨询,欢迎关注!
“我们相信人人都可以成为一个IT大神,现在开始,选择一条阳光大道,助你入门,学习的路上不再迷茫。这里是北京尚学堂,初学者转行到IT行业 的聚集地。"
领取专属 10元无门槛券
私享最新 技术干货