前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Python环境】数据挖掘有哪些工作流程?

【Python环境】数据挖掘有哪些工作流程?

作者头像
陆勤_数据人网
发布2018-02-27 10:44:41
6480
发布2018-02-27 10:44:41
举报
文章被收录于专栏:数据科学与人工智能

数据挖掘工作流程:

一、收集数据

收集数据一般是补充外部数据,包括采用爬虫和接口,获取,补充目前数据不足部分。Python scrapy,requests是很好的工具。

二、准备数据

主要包括数据清洗,预处理,错值纠正,缺失值填补。连续值离散化,去掉异常值,以及数据归一化的过程。同时需要根据准备采用的挖掘工具准备恰当的数据格式。

三、分析数据

通过初步统计、分析以及可视化,或者是探索性数据分析工具,得到初步的数据概况。分析数据的分布,质量,可靠程度,实际作用域,以确定下一步的算法选择。 R的ggplot,python的matplotlib,js 的leaflet,d3都是很好的可视化工具。

四、训练算法

整个工作流最核心的一步,根据现有数据选择算法,生成训练模型。主要是算法选择和参数调整:

1.算法的选择,需要对算法性能和精度以及编码实现难度进行衡量和取舍。 (甚至算法工具箱对数据集的限制情况都是算法选择考虑的内容)。实际工程上,不考虑算法复杂度超过O(N^2)的算法。Java的Weka和Python的Scipy是很好的数据挖掘分析工具,一般都会在小数据集做算法选择的预研。

2.参数调整。这是一门神奇的技能,只能在实际过程中体会。

五、测试算法

这一步主要是针对监督算法(分类,回归),为了防止模型的Overfit,需要测试算法模型的覆盖能力和性能。方法包括Holdout,还有random subsampling.

非监督算法(聚类),采用更加具体的指标,包括熵,纯度,精度,召回等。

六、使用,解释,修正算法

数据挖掘不是一个静态的过程,需要不断对模型重新评估,衡量,修正。算法模型的生命周期也是一个值得探讨的话题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-10-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档