先从概念上了解数据挖掘
我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。 数据挖掘能把大型数据转化成知识 数据挖掘是信息数据的进化
关系数据库是表的汇集,表中通常有大量关系数据
数据仓库是从一个或者多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点
事务数据库的一个记录代表一个事务,比如顾客的一次购物
比如多媒体数据等等...
目标类数据的一般或者全部汇总,特征化的输出一般使用饼图、条形图、曲线图等等,比如汇总一年花费5000元以上的用户
将数据对象的一般特征进行比较
分类:找出描述和区分数据类或者概念的模型,比如决策树 相关分析:试图识别与分类与回归过程显著相关的属性 回归:一种常用的数值预测的统计学方法
分析数据对象,不考虑类标号
对和一般数据特征明显不同的数据进行分析
统计学:研究数据的收集、分析、解释和表示 机器学习:分为监督学习、无监督学习和半监督学习三种 数据库系统与数据仓库 信息检索
哪里有数据,哪里就有数据挖掘
电子商务 web搜索引擎 等等..
1、挖掘方法 2、用户交互 3、有效性与可伸缩性 4、数据类型的多样性 5、数据挖掘与社会