专栏首页数据科学与人工智能【Python环境】数据挖掘有哪些工作流程?

【Python环境】数据挖掘有哪些工作流程?

数据挖掘工作流程:

一、收集数据

收集数据一般是补充外部数据,包括采用爬虫和接口,获取,补充目前数据不足部分。Python scrapy,requests是很好的工具。

二、准备数据

主要包括数据清洗,预处理,错值纠正,缺失值填补。连续值离散化,去掉异常值,以及数据归一化的过程。同时需要根据准备采用的挖掘工具准备恰当的数据格式。

三、分析数据

通过初步统计、分析以及可视化,或者是探索性数据分析工具,得到初步的数据概况。分析数据的分布,质量,可靠程度,实际作用域,以确定下一步的算法选择。 R的ggplot,python的matplotlib,js 的leaflet,d3都是很好的可视化工具。

四、训练算法

整个工作流最核心的一步,根据现有数据选择算法,生成训练模型。主要是算法选择和参数调整:

1.算法的选择,需要对算法性能和精度以及编码实现难度进行衡量和取舍。 (甚至算法工具箱对数据集的限制情况都是算法选择考虑的内容)。实际工程上,不考虑算法复杂度超过O(N^2)的算法。Java的Weka和Python的Scipy是很好的数据挖掘分析工具,一般都会在小数据集做算法选择的预研。

2.参数调整。这是一门神奇的技能,只能在实际过程中体会。

五、测试算法

这一步主要是针对监督算法(分类,回归),为了防止模型的Overfit,需要测试算法模型的覆盖能力和性能。方法包括Holdout,还有random subsampling.

非监督算法(聚类),采用更加具体的指标,包括熵,纯度,精度,召回等。

六、使用,解释,修正算法

数据挖掘不是一个静态的过程,需要不断对模型重新评估,衡量,修正。算法模型的生命周期也是一个值得探讨的话题。

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【机器学习】机器学习算法预览

    在这篇文章中,我要带大家预览一下机器学习中最热门的算法。预览主要的机器学习算法可在某种程度上给你这样的一种感觉,让你知道什么样的方法是可靠的。 这里有很多算法都...

    陆勤_数据人网
  • 【机器学习】机器学习常见算法分类汇总

    机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。...

    陆勤_数据人网
  • 【陆勤阅读】机器学习算法汇总:人工神经网络、深度学习及其它

    摘要:机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里我们将为您总结一下常见的机器学习算法,以供您在工作和...

    陆勤_数据人网
  • 凭借这 10 大算法,就可以主宰世界!

    简单的说,任何定义明确的计算步骤都可称为算法,接受一个或一组值为输入,输出一个或一组值。

    帅地
  • 数据结构(二):算法及其描述

    数据元素之间的关系有逻辑关系和物理关系,对应的操作有逻辑结构上的操作功能和具体存储结构上的操作实现。

    渔父歌
  • 主宰这个世界的10种算法

    ---- Reddit有篇帖子介绍了算法对我们现在生活的重要性,以及哪些算法对现代文明所做贡献最大。如果对算法有所了解,读这篇文章时你可能会问“作者知道算法为...

    机器人网
  • 让我们像驯化小狗一样驯化算法

    人类进化学家当中有一种理论,说的是小狗这种宠物是从野兽进化而来,因为只有那些获得了社会化智慧的犬科动物才能存活下来。几千年前狼群在人类聚集地的周围活动,逐渐开始...

    小莹莹
  • 【学习】从入门到精通,我是这样学习算法的

    这篇文章讲了什么? 我这些年学习数据结构和算法的总结。 一些不错的算法书籍和教程。 算法的重要性。 初学 第一次接触数据结构是在大二下学期的数据...

    小莹莹
  • 2.1 C语言程序的灵魂

    广义地说:为解决一个问题而采取的方法和步骤,就称为“算法”。计算机算法可以分为两大类:数值运算算法和非数值运算算法

    C语言入门到精通
  • AI时代就业指南:如何成为一名优秀的算法工程师?

    1、算法工程师是做什么的? 广义上是指搞软件算法的,也就是开发和应用软件算法实现工业控制和程序处理。除了机器学习之外 还包括控制算法、图形算法等,狭义上现在谈算...

    小莹莹

扫码关注云+社区

领取腾讯云代金券