《数据分析与数据挖掘实战》学习笔记一

《数据分析与数据挖掘实战》学习笔记

1数据挖掘基础

1.1.1定义挖掘目标

1.1.2数据抽样

1.1.3数据预处理

1.1.4数据建模

1.1.5模型评价

1.1.6python中用于数据挖掘的模块

1.1数据挖掘流程

关于本笔记

主题:《数据分析与数据挖掘实战》学习笔记

更新:争取每周一定期更新

权限:可转载

关于本人

数据挖掘基础

数据分析与数据挖掘是利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业竞争力。

数据挖掘流程

定义挖掘目标

针对具体的项目,提出具体的挖掘目标,首先要定义本次项目需要挖掘的目标是什么?系统完成后能达到什么样的效果?因此我们必须分析应用领域,包括应用中的各种只是和应用目标,了解相关领域的的情况,熟悉北京知识,弄清客户需求。要想充分发挥数据挖掘的价值,必须对目标有一个明确的定义。

数据抽样

在明确了需要进行的数据挖掘目标后,就需要对数据进行抽样,数据抽样的标准有三个,一是相关性,二是可靠性,三是有效性,衡量抽样数据质量的标准如下:

资料是完整,各指指标齐全

数据准确无误,反应的都是正常状态下的水平

数据抽样的方法主要有以下三点:

随机抽样

等距抽样

分层抽样

从其实顺序抽样

分类抽样

在数据抽样完成后,我们拿到了样本集,基于样本集可以挖掘出什么样的价值是下异一步我们需要探索的内容,数据的探索探索和预处理的目的是为了保证样本的质量,从而为保证模型的质量打下基础

数据预处理

对抽样到的数据进行必要的预处理,对于建模是非常关键的,数据的预处理会影响到模型的质量,数据预处理主要包括:

异常值分析

缺失值分析

相关分析

周期性分析

数据降维

数据建模

经过上述步骤,可以开始对数据进行建模分析,首先需要考虑的是问题的类型,主要的问题类型有:

分类问题

聚类问题

回归问题

关联规则

时序模式

智能推荐

关于各类问题的处理方法,在后续的实战教程中都有涉及,这里就不在详细叙述了。

模型评价

模型的评价与模型有很大的关系,对于不同的模型有不同的评价标准,在后续的文章中会详细叙述,这里也不展开讲解。

python中用于数据挖掘的模块

python是一门强大的语言,人生苦短,我用python,关于python的语言的基本学习,可以在datacamp的课程中学习,课程的链接如下:

https://www.datacamp.com/courses/intro-to-python-for-data-science

利用python进行数据分析和数据挖掘主要用的模块介绍如下:

Numpy

提供数组的支持,以及相应的高效的处理函数,关于Numpy的学习,可以在datacamp的Python Numpy Array Tutorial进行学习,课程的链接如下:

https://www.datacamp.com/community/tutorials/python-numpy-tutorial

Pandas

Pandas是python中强大、灵活的数据分析和探索工具,主要的数据类型包括series和DataFrame,关于Pandas的学习可以参考datacamp中的Pandas Tutorial: DataFrames in Python,课程的链接如下:

https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python

scipy

矩阵在科学计算中具有重要的地位,在模型的建设过程中涉及到大量的矩阵运算,scipy是python中提供矩阵支持以及矩阵相关的数值计算的包。关于scipy可以在datacamp的Scipy Tutorial: Vectors and Arrays (Linear Algebra)课程中学习,课程链接如下:

https://www.datacamp.com/community/tutorials/python-scipy-tutorial

Matplotlib

Matplotlib是python中强大的数据可视化的模块,提供了众多的可视化案例,关于Matplotlib的学习可以在datacamp中的Scipy Tutorial: Vectors and Arrays (Linear Algebra)课程进行学习,课程链接如下:

https://www.datacamp.com/community/tutorials/matplotlib-tutorial-python

StatsModels

StatsModels是python中用于统计建模和计量经济学 ,包括描述统计 、统计模型估计和推断的模块,关于StatsModels的学习可以在以下链接进行学习:

http://www.statsmodels.org/stable/index.html

Scikit-learn

Scikit-learn是python中的机器学习库,提供了回归,分类,聚类等强大的机器学习库,可以在datacamp的初级教程Scikit-Learn 教學:Python 與機器學習 中学习,课程链接如下:

https://www.datacamp.com/community/tutorials/scikit-learn-python

keras

Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果。关于keras的使用,可以参考keras的文档,相关的教程链接如下:

http://keras-cn.readthedocs.io/en/latest/

Gensim

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口,关于gensim的学习可以参考如下的链接:

https://radimrehurek.com/gensim/tutorial.html

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180304G12SEY00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券