【学术】5个字母解释数据科学管道 适合初学者的学习指南

从前,有一个叫“数据”的男孩。在他的一生中,他总是试图弄明白他活下去的目的是什么。比如:“我的价值观是什么? 我能对这个世界产生怎样的影响? 数据从何而来? 我和数据之间有什么相似之处吗?”这些问题一直都萦绕在他的脑海中,幸运的是,“数据”最终找到了一个解决方案,并经历了一个巨大的转变。

这一切都始于“数据”沿着行(row)散步的时候,他遇到了一个奇怪却又有趣的管道(pipe)。一端是带有入口的管道,另一端是出口。这条管道上还标有5个不同的字母:“O.S.E.M.N.”。好奇驱使“数据”进入了这条管道。长话短说……在数据中,我们发现了洞察力(insight)。

  • 提示:本文将简要地介绍在典型的数据科学管道中你所期待看到的内容。从建立你的业务问题到创建可执行的洞察力。

理解数据科学管道工作流程的典型工作流程是实现业务理解和解决问题的关键一步。如果你对数据科学管道的工作方式感到害怕,那就不要再说了。这篇文章是为你量身打造的!

OSEMN管道 O(Obtaining)-获取我们的数据 S(Scrubbing)-整理我们的数据 E( Exploring)-探索我们的数据将使我们能够找到模式和趋势 M(Modeling)-建模我们的数据将给我们作为向导的预测能力 N(iNterpreting)-解释我们的数据

业务问题 所以在我们开始OSEMN管道之前,我们必须考虑的最重要的一步是理解我们要解决的问题。假设这一次在我们开始用“数据科学”做任何事情之前,我们必须首先考虑我们要解决的问题。如果你有一个小问题想要解决,那么最多你就会得到一个小的解决方案。如果你有一个大问题要解决,那么你就有可能有一个大的解决方案。

问问你自己:

  • 我们如何将数据转化为美元?
  • 我想用这些数据做什么?
  • 我们的模型带来了什么业务价值?
  • 什么能帮我们省下一大笔钱?
  • 怎样才能使我们的业务更有效率呢?

了解这一基本概念将使你走得更远,并引导你成为“数据科学家”。但无论如何,不管你的模型预测的有多好,无论你获得了多少数据,无论你的管道是怎样的,这仍然是你必须做的非常重要的一步。

“好的数据科学更多的是提出关于数据的问题,而不是数据的整理(munging)和分析(analysis)”——莱利纽曼

获取你的数据

如果数据科学家没有任何数据,你就不能做任何事情。根据经验,在获取数据时,你必须考虑一些事情。你必须识别所有可用的数据集(可以来自互联网或外部/内部数据库)。你必须将数据提取成可用的格式(csv、json、xml等等)。

技能要求:

  • 数据库管理:MySQL,PostgresSQL,MongoDB
  • 查询关系数据库
  • 检索非结构化数据:文本、视频、音频文件、文档
  • 分布式存储:Apache spark、Apache spark/flink

整理数据

管道的这一阶段应该需要最多的时间和精力。因为机器学习模型的结果和输出与输入一样好。基本上来说就是:无用输入,无用输出。

目的:

  • 检查数据:了解你正在使用的每个特征,识别错误,丢失值,以及损坏记录
  • 清洗数据:丢弃、替换和/或填充缺失的值/错误

技能要求:

  • 脚本语言:Python、R、SAS
  • 数据整理工具:Python,Pandas,R
  • 分布式处理:Hadoop、Map Reduce/Spark

探索(探索性数据分析)

现在,在探索阶段,我们尝试了解数据的模式和值。我们将使用不同类型的可视化和统计测试来支持我们的发现。这就是我们能够通过各种图表和分析得出数据背后隐藏的含义的地方。

目的:

  • 通过可视化和图表找到你的数据中的模式
  • 通过使用统计信息识别和测试重要的变量来提取特征

技能要求:

  • Python:Numpy,Matplotlib,Pandas,Scipy
  • R:GGplot2,Dplyr
  • 推论统计
  • 实验设计
  • 数据可视化

建模(机器学习)

现在要进行的是最有趣的部分。从统计学意义上来说,模型是基本规则。把机器学习模型想象成在你的工具箱里的工具。你将可以访问许多算法并使用它们来完成不同的业务目标。你使用的功能越好,你的预测能力就越强。在清洗你的数据并发现哪些特征是最重要的之后,使用你的模型作为预测工具只会增强你的业务决策。

预测分析正在成为一个游戏规则的改变者,而不是回头去分析“发生了什么?”预测分析会帮助高管回答“接下来会发生什么?”以及“我们该怎么做?”这样的问题。(福布斯杂志,2010年4月1日)

预测能力的一个例子:在沃尔玛的供应链中可以看到一个很好的例子。沃尔玛可以预测他们是否可以在飓风季节卖光他们所有的草莓味的馅饼(pop-tarts)。通过数据挖掘,他们的历史数据显示,在飓风季节发生前最受欢迎的物品竟然就是“pop-tarts”。这是一个真实的故事,并得出了一个结论,那就是不要低估预测分析的力量。

目的:

  • 深度分析:创建预测模型/算法
  • 评估和改进模型

技能要求:

  • 机器学习:监督/无监督算法
  • 评估方法
  • 机器学习库:Python(Sci-kit Learn)/R(CARET)
  • 线性代数和多元微积分

“模型是数学中嵌入的观点”——凯茜奥尼尔

解释(让数据讲故事)

现在是讲故事的时间!最重要的一步是了解并学习如何通过沟通来解释你的发现。讲故事是关键,不要低估它。它与人联系,说服他们,帮助他们。理解你的听众并与他们建立联系的艺术是数据叙述中最好的一部分。

情感在数据叙述中扮演着重要的角色。人们不会神奇地理解你的发现。产生影响的最佳方式是通过情感来讲述你的故事。我们作为人类,自然受到情感的影响。当你展示你的数据时,请记住心理学的力量。再重申一遍,理解你的听众并与他们建立联系的艺术是数据叙述中最好的一部分。

目的:

  • 识别业务洞察力:返回业务问题
  • 将你的发现形象化:保持简单的和优先级的驱动
  • 讲述一个清晰可操作的故事:有效地与非技术受众沟通

技能要求:

  • 业务领域知识
  • 数据可视化工具:Tablaeu,D3.JS,Matplotlib,GGplot,Seaborn
  • 交流:展示/演讲和报告/写作

更新你的模型

不要担心,你的故事不会在这里结束。由于你的模型还在生产中,所以定期更新你的模型是很重要的,这取决于你接收新数据的频率。你收到的数据越多,更新就越频繁。假设你是亚马逊,你为客户推出了一项让他们“购买鞋子”的新功能。如果你的旧模型没有这个功能,那么现在你必须更新包含该特征的模型。如果不是,你的模型会随着时间的推移而退化,并且不会表现得很好,从而导致你的业务也会退化。新特征的引入将会通过不同的变化或者可能与其他特性的相关性来改变模型的性能。

结论

获取你的数据,整理你的数据,用可视化的方法来探索你的数据,用不同的机器学习算法来建模你的数据,通过评估来解释你的数据,并更新你的模型。

记住,我们和数据没有什么不同。我们都有价值观,有目的,有理由在这个世界上存在。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【Python环境】Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前,我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈,正好我得到这个机会去旁听。Olivier是sci...

2049
来自专栏AI科技评论

深度 | 深鉴科技CEO姚颂详解深度学习处理架构的演进历程

AI 科技评论按:AI研习社系列公开课持续进行中,高水平的嘉宾、精彩的分享主题、宽广的学术视角和敏锐的行业理解,肯定会让每个观众/读者都有所收获。 深度学习、体...

3687
来自专栏EAWorld

AIDevOps离我们有多远?

本文目录: 一、写在前面 二、AIDevOps,未来已来 三、AIDevOps的方法 四、学术界的研究启示 五、距离AIDevOps还有多远? 六、参考文献 一...

3606
来自专栏PPV课数据科学社区

不懂这几个问题,怎么学好数据挖掘!

关键词:数据挖掘、DataMining、OLAP、Data Warehousing 正文如下: 1、DataMining和统计分析有什么不同? 硬要去区分Dat...

3215
来自专栏新智元

【深度】TensorFlow or TensorSlow,谷歌基准测试为何不给力?(附Google内部员工测试代码下载)

11月9日Google发布了第二代深度学习引擎TensorFlow,引起业内广泛关注。发布后业内人士热议的一个话题是:这个引擎能否成为Google所说的平台级产...

4294
来自专栏灯塔大数据

建立数据场的七大技能

摘要:成为数据极客,建立自己的数据场需要哪些技能呢?遇到普通的数据,通过SQL做分析。如果数据量比较大,可以使用Hadoop等大数据框架处理。在深入挖掘上,可...

3407
来自专栏ATYUN订阅号

关键术语总结:117个数据科学关键术语的解释

这篇文章展示了一组数据科学相关的关键术语,这些关键术语简明而实用,由12个不同的主题组成。 20个大数据的关键术语的解释 链接地址为http://www.kdn...

2776
来自专栏CSDN技术头条

[访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前,我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈,正好我得到这个机会去旁听。Olivier是sci...

1806
来自专栏互联网杂技

2016年最流行的六大深度学习开源工具

一、TensorFlow TensorFlow新版本的重大意义在于首次支持分布式处理,可使用机群培训机器学习模型,此前只支持单一机器。 二、Keras 开发者是...

2917
来自专栏AI科技评论

如何评价百度刚刚开源的Paddle平台?

百度今天开源了其深度学习平台Paddle,引发了挺多人工智能领域开发者的兴趣,包括一些之前一直在Tensorflow和Caffe上练手的开发者。不过鉴于深度学习...

3414

扫码关注云+社区