【学术】5个字母解释数据科学管道 适合初学者的学习指南

从前,有一个叫“数据”的男孩。在他的一生中,他总是试图弄明白他活下去的目的是什么。比如:“我的价值观是什么? 我能对这个世界产生怎样的影响? 数据从何而来? 我和数据之间有什么相似之处吗?”这些问题一直都萦绕在他的脑海中,幸运的是,“数据”最终找到了一个解决方案,并经历了一个巨大的转变。

这一切都始于“数据”沿着行(row)散步的时候,他遇到了一个奇怪却又有趣的管道(pipe)。一端是带有入口的管道,另一端是出口。这条管道上还标有5个不同的字母:“O.S.E.M.N.”。好奇驱使“数据”进入了这条管道。长话短说……在数据中,我们发现了洞察力(insight)。

  • 提示:本文将简要地介绍在典型的数据科学管道中你所期待看到的内容。从建立你的业务问题到创建可执行的洞察力。

理解数据科学管道工作流程的典型工作流程是实现业务理解和解决问题的关键一步。如果你对数据科学管道的工作方式感到害怕,那就不要再说了。这篇文章是为你量身打造的!

OSEMN管道 O(Obtaining)-获取我们的数据 S(Scrubbing)-整理我们的数据 E( Exploring)-探索我们的数据将使我们能够找到模式和趋势 M(Modeling)-建模我们的数据将给我们作为向导的预测能力 N(iNterpreting)-解释我们的数据

业务问题 所以在我们开始OSEMN管道之前,我们必须考虑的最重要的一步是理解我们要解决的问题。假设这一次在我们开始用“数据科学”做任何事情之前,我们必须首先考虑我们要解决的问题。如果你有一个小问题想要解决,那么最多你就会得到一个小的解决方案。如果你有一个大问题要解决,那么你就有可能有一个大的解决方案。

问问你自己:

  • 我们如何将数据转化为美元?
  • 我想用这些数据做什么?
  • 我们的模型带来了什么业务价值?
  • 什么能帮我们省下一大笔钱?
  • 怎样才能使我们的业务更有效率呢?

了解这一基本概念将使你走得更远,并引导你成为“数据科学家”。但无论如何,不管你的模型预测的有多好,无论你获得了多少数据,无论你的管道是怎样的,这仍然是你必须做的非常重要的一步。

“好的数据科学更多的是提出关于数据的问题,而不是数据的整理(munging)和分析(analysis)”——莱利纽曼

获取你的数据

如果数据科学家没有任何数据,你就不能做任何事情。根据经验,在获取数据时,你必须考虑一些事情。你必须识别所有可用的数据集(可以来自互联网或外部/内部数据库)。你必须将数据提取成可用的格式(csv、json、xml等等)。

技能要求:

  • 数据库管理:MySQL,PostgresSQL,MongoDB
  • 查询关系数据库
  • 检索非结构化数据:文本、视频、音频文件、文档
  • 分布式存储:Apache spark、Apache spark/flink

整理数据

管道的这一阶段应该需要最多的时间和精力。因为机器学习模型的结果和输出与输入一样好。基本上来说就是:无用输入,无用输出。

目的:

  • 检查数据:了解你正在使用的每个特征,识别错误,丢失值,以及损坏记录
  • 清洗数据:丢弃、替换和/或填充缺失的值/错误

技能要求:

  • 脚本语言:Python、R、SAS
  • 数据整理工具:Python,Pandas,R
  • 分布式处理:Hadoop、Map Reduce/Spark

探索(探索性数据分析)

现在,在探索阶段,我们尝试了解数据的模式和值。我们将使用不同类型的可视化和统计测试来支持我们的发现。这就是我们能够通过各种图表和分析得出数据背后隐藏的含义的地方。

目的:

  • 通过可视化和图表找到你的数据中的模式
  • 通过使用统计信息识别和测试重要的变量来提取特征

技能要求:

  • Python:Numpy,Matplotlib,Pandas,Scipy
  • R:GGplot2,Dplyr
  • 推论统计
  • 实验设计
  • 数据可视化

建模(机器学习)

现在要进行的是最有趣的部分。从统计学意义上来说,模型是基本规则。把机器学习模型想象成在你的工具箱里的工具。你将可以访问许多算法并使用它们来完成不同的业务目标。你使用的功能越好,你的预测能力就越强。在清洗你的数据并发现哪些特征是最重要的之后,使用你的模型作为预测工具只会增强你的业务决策。

预测分析正在成为一个游戏规则的改变者,而不是回头去分析“发生了什么?”预测分析会帮助高管回答“接下来会发生什么?”以及“我们该怎么做?”这样的问题。(福布斯杂志,2010年4月1日)

预测能力的一个例子:在沃尔玛的供应链中可以看到一个很好的例子。沃尔玛可以预测他们是否可以在飓风季节卖光他们所有的草莓味的馅饼(pop-tarts)。通过数据挖掘,他们的历史数据显示,在飓风季节发生前最受欢迎的物品竟然就是“pop-tarts”。这是一个真实的故事,并得出了一个结论,那就是不要低估预测分析的力量。

目的:

  • 深度分析:创建预测模型/算法
  • 评估和改进模型

技能要求:

  • 机器学习:监督/无监督算法
  • 评估方法
  • 机器学习库:Python(Sci-kit Learn)/R(CARET)
  • 线性代数和多元微积分

“模型是数学中嵌入的观点”——凯茜奥尼尔

解释(让数据讲故事)

现在是讲故事的时间!最重要的一步是了解并学习如何通过沟通来解释你的发现。讲故事是关键,不要低估它。它与人联系,说服他们,帮助他们。理解你的听众并与他们建立联系的艺术是数据叙述中最好的一部分。

情感在数据叙述中扮演着重要的角色。人们不会神奇地理解你的发现。产生影响的最佳方式是通过情感来讲述你的故事。我们作为人类,自然受到情感的影响。当你展示你的数据时,请记住心理学的力量。再重申一遍,理解你的听众并与他们建立联系的艺术是数据叙述中最好的一部分。

目的:

  • 识别业务洞察力:返回业务问题
  • 将你的发现形象化:保持简单的和优先级的驱动
  • 讲述一个清晰可操作的故事:有效地与非技术受众沟通

技能要求:

  • 业务领域知识
  • 数据可视化工具:Tablaeu,D3.JS,Matplotlib,GGplot,Seaborn
  • 交流:展示/演讲和报告/写作

更新你的模型

不要担心,你的故事不会在这里结束。由于你的模型还在生产中,所以定期更新你的模型是很重要的,这取决于你接收新数据的频率。你收到的数据越多,更新就越频繁。假设你是亚马逊,你为客户推出了一项让他们“购买鞋子”的新功能。如果你的旧模型没有这个功能,那么现在你必须更新包含该特征的模型。如果不是,你的模型会随着时间的推移而退化,并且不会表现得很好,从而导致你的业务也会退化。新特征的引入将会通过不同的变化或者可能与其他特性的相关性来改变模型的性能。

结论

获取你的数据,整理你的数据,用可视化的方法来探索你的数据,用不同的机器学习算法来建模你的数据,通过评估来解释你的数据,并更新你的模型。

记住,我们和数据没有什么不同。我们都有价值观,有目的,有理由在这个世界上存在。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【观点】数据挖掘入门必看10个问题

NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般...

2627
来自专栏织云平台团队的专栏

AI运维的实践探索(一):如何实现多维智能监控?

监控数据多维化后,带来新的应用场景。SNG的哈勃多维监控平台在完成大数据架构改造后,尝试引入AI能力,多维根因分析是其中一试点,用于摸索AI的应用经验。本分分享...

6563
来自专栏PHP技术

谈谈新浪微博背后的那些算法

本文对微博中常见的问题的对应算法进行了简单的介绍,在实际应用中的算法比介绍的要复杂的多。当然,本文覆盖的主题并不全,比如好友推荐、热点跟踪等就没有涉及到。但古人...

34612
来自专栏新智元

阿里妈妈首次公开新一代智能广告检索模型,重新定义传统搜索框架

1745
来自专栏每周一脱topic

推荐系统-学习总结

推荐系统目前几乎无处不在,主流的app都基本应用到了推荐系统。例如,旅游出行,携程、去哪儿等都会给你推荐机票、酒店等等;点外卖,饿了么、美团等会给你推荐饭店;购...

2316
来自专栏大数据挖掘DT机器学习

数据vs.算法,究竟哪个更重要

数据和算法究竟哪个更重要并没有一个明确的界定,根据不同的情境和应用,它们发挥的作用不同。虽然实际情况确实如此,但是在数据为王的时代,算法的关心似乎已只停留在某些...

3204
来自专栏CSDN技术头条

从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例

作者 | HCY崇远 01 前言 本文源自于前阵子连续更新的推荐系统系列,前段时间给朋友整理一个关于推荐系统相关的知识教学体系,刚好自身业务中,预计明年初随着业...

45211
来自专栏PPV课数据科学社区

论数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?谁的观点你最赞同?

Han Hsiao 观点: 简单说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体。 主要区...

3474
来自专栏PPV课数据科学社区

【聚焦】微博背后的那些算法

引言 微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作:原创、转发、回复、阅读、关注、@等。其中,前四个是针对短博文,最后的关注和@则...

2888
来自专栏灯塔大数据

干货 | 数据挖掘入门必看10个问题

NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Da...

3034

扫描关注云+社区