【学术】5个字母解释数据科学管道 适合初学者的学习指南

从前,有一个叫“数据”的男孩。在他的一生中,他总是试图弄明白他活下去的目的是什么。比如:“我的价值观是什么? 我能对这个世界产生怎样的影响? 数据从何而来? 我和数据之间有什么相似之处吗?”这些问题一直都萦绕在他的脑海中,幸运的是,“数据”最终找到了一个解决方案,并经历了一个巨大的转变。

这一切都始于“数据”沿着行(row)散步的时候,他遇到了一个奇怪却又有趣的管道(pipe)。一端是带有入口的管道,另一端是出口。这条管道上还标有5个不同的字母:“O.S.E.M.N.”。好奇驱使“数据”进入了这条管道。长话短说……在数据中,我们发现了洞察力(insight)。

  • 提示:本文将简要地介绍在典型的数据科学管道中你所期待看到的内容。从建立你的业务问题到创建可执行的洞察力。

理解数据科学管道工作流程的典型工作流程是实现业务理解和解决问题的关键一步。如果你对数据科学管道的工作方式感到害怕,那就不要再说了。这篇文章是为你量身打造的!

OSEMN管道 O(Obtaining)-获取我们的数据 S(Scrubbing)-整理我们的数据 E( Exploring)-探索我们的数据将使我们能够找到模式和趋势 M(Modeling)-建模我们的数据将给我们作为向导的预测能力 N(iNterpreting)-解释我们的数据

业务问题 所以在我们开始OSEMN管道之前,我们必须考虑的最重要的一步是理解我们要解决的问题。假设这一次在我们开始用“数据科学”做任何事情之前,我们必须首先考虑我们要解决的问题。如果你有一个小问题想要解决,那么最多你就会得到一个小的解决方案。如果你有一个大问题要解决,那么你就有可能有一个大的解决方案。

问问你自己:

  • 我们如何将数据转化为美元?
  • 我想用这些数据做什么?
  • 我们的模型带来了什么业务价值?
  • 什么能帮我们省下一大笔钱?
  • 怎样才能使我们的业务更有效率呢?

了解这一基本概念将使你走得更远,并引导你成为“数据科学家”。但无论如何,不管你的模型预测的有多好,无论你获得了多少数据,无论你的管道是怎样的,这仍然是你必须做的非常重要的一步。

“好的数据科学更多的是提出关于数据的问题,而不是数据的整理(munging)和分析(analysis)”——莱利纽曼

获取你的数据

如果数据科学家没有任何数据,你就不能做任何事情。根据经验,在获取数据时,你必须考虑一些事情。你必须识别所有可用的数据集(可以来自互联网或外部/内部数据库)。你必须将数据提取成可用的格式(csv、json、xml等等)。

技能要求:

  • 数据库管理:MySQL,PostgresSQL,MongoDB
  • 查询关系数据库
  • 检索非结构化数据:文本、视频、音频文件、文档
  • 分布式存储:Apache spark、Apache spark/flink

整理数据

管道的这一阶段应该需要最多的时间和精力。因为机器学习模型的结果和输出与输入一样好。基本上来说就是:无用输入,无用输出。

目的:

  • 检查数据:了解你正在使用的每个特征,识别错误,丢失值,以及损坏记录
  • 清洗数据:丢弃、替换和/或填充缺失的值/错误

技能要求:

  • 脚本语言:Python、R、SAS
  • 数据整理工具:Python,Pandas,R
  • 分布式处理:Hadoop、Map Reduce/Spark

探索(探索性数据分析)

现在,在探索阶段,我们尝试了解数据的模式和值。我们将使用不同类型的可视化和统计测试来支持我们的发现。这就是我们能够通过各种图表和分析得出数据背后隐藏的含义的地方。

目的:

  • 通过可视化和图表找到你的数据中的模式
  • 通过使用统计信息识别和测试重要的变量来提取特征

技能要求:

  • Python:Numpy,Matplotlib,Pandas,Scipy
  • R:GGplot2,Dplyr
  • 推论统计
  • 实验设计
  • 数据可视化

建模(机器学习)

现在要进行的是最有趣的部分。从统计学意义上来说,模型是基本规则。把机器学习模型想象成在你的工具箱里的工具。你将可以访问许多算法并使用它们来完成不同的业务目标。你使用的功能越好,你的预测能力就越强。在清洗你的数据并发现哪些特征是最重要的之后,使用你的模型作为预测工具只会增强你的业务决策。

预测分析正在成为一个游戏规则的改变者,而不是回头去分析“发生了什么?”预测分析会帮助高管回答“接下来会发生什么?”以及“我们该怎么做?”这样的问题。(福布斯杂志,2010年4月1日)

预测能力的一个例子:在沃尔玛的供应链中可以看到一个很好的例子。沃尔玛可以预测他们是否可以在飓风季节卖光他们所有的草莓味的馅饼(pop-tarts)。通过数据挖掘,他们的历史数据显示,在飓风季节发生前最受欢迎的物品竟然就是“pop-tarts”。这是一个真实的故事,并得出了一个结论,那就是不要低估预测分析的力量。

目的:

  • 深度分析:创建预测模型/算法
  • 评估和改进模型

技能要求:

  • 机器学习:监督/无监督算法
  • 评估方法
  • 机器学习库:Python(Sci-kit Learn)/R(CARET)
  • 线性代数和多元微积分

“模型是数学中嵌入的观点”——凯茜奥尼尔

解释(让数据讲故事)

现在是讲故事的时间!最重要的一步是了解并学习如何通过沟通来解释你的发现。讲故事是关键,不要低估它。它与人联系,说服他们,帮助他们。理解你的听众并与他们建立联系的艺术是数据叙述中最好的一部分。

情感在数据叙述中扮演着重要的角色。人们不会神奇地理解你的发现。产生影响的最佳方式是通过情感来讲述你的故事。我们作为人类,自然受到情感的影响。当你展示你的数据时,请记住心理学的力量。再重申一遍,理解你的听众并与他们建立联系的艺术是数据叙述中最好的一部分。

目的:

  • 识别业务洞察力:返回业务问题
  • 将你的发现形象化:保持简单的和优先级的驱动
  • 讲述一个清晰可操作的故事:有效地与非技术受众沟通

技能要求:

  • 业务领域知识
  • 数据可视化工具:Tablaeu,D3.JS,Matplotlib,GGplot,Seaborn
  • 交流:展示/演讲和报告/写作

更新你的模型

不要担心,你的故事不会在这里结束。由于你的模型还在生产中,所以定期更新你的模型是很重要的,这取决于你接收新数据的频率。你收到的数据越多,更新就越频繁。假设你是亚马逊,你为客户推出了一项让他们“购买鞋子”的新功能。如果你的旧模型没有这个功能,那么现在你必须更新包含该特征的模型。如果不是,你的模型会随着时间的推移而退化,并且不会表现得很好,从而导致你的业务也会退化。新特征的引入将会通过不同的变化或者可能与其他特性的相关性来改变模型的性能。

结论

获取你的数据,整理你的数据,用可视化的方法来探索你的数据,用不同的机器学习算法来建模你的数据,通过评估来解释你的数据,并更新你的模型。

记住,我们和数据没有什么不同。我们都有价值观,有目的,有理由在这个世界上存在。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

揭秘47万微信群和2亿微信用户背后的数字规律

微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学、腾讯公司和香...

461
来自专栏大数据文摘

通过R让你的复杂网络图更具艺术感

4364
来自专栏专知

势头强劲: PyTorch周年大事记盘点

【导读】 1月19日,PyTorch团队对PyTorch发布一年来的成长轨迹做了总结。在过去一年里,PyTorch资源包的下载量超50万次、PyTorch频频出...

3495
来自专栏计算机视觉战队

DL框架的未来发展,TensorFlow/MXNet/Torch, 选哪个?

DL framework的学习成本还是不小的,以后未来的发展来看,你建议选哪个? 请主要对比分析下4个方面吧: 1. 实现新计算单元(layer)和网络结构的便...

4649
来自专栏CDA数据分析师

【资源】想进行数据科学项目却没有数据集?25个数据集网站汇总

原作者 Kunal Jain 编译  Mika 本文为 CDA 数据分析师原创作品,转载需授权 前言 如果用一个句子总结学习数据科学的本质,那就是: 学习数据科...

4318
来自专栏机器之心

业界 | 剖析用于深度学习的硬件:GPU、FPGA、ASIC和DSP

选自Medium 作者:Eugenio Culurciello 机器之心编译 参与:Rick R、吴攀 在这篇文章中,作者Eugenio Culurciel...

31510
来自专栏MyBlog

J.Woodcock&J.Davies_UsingZ_1996_C1 阅读

随着软件的日益发展, 软件的功能等需求越来越多, 文档也随之增加, 组件之间的交互和冲突最后导致系统出现问题, 逐渐偏离了我们的预期. 为解决该问题, 其中一个...

761
来自专栏新智元

【独家揭秘】机器学习分析 47 万微信群,发现 9 大规律

【新智元导读】微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学...

3926
来自专栏悦思悦读

大数据基本概念浅析及技术简介

大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,不管什么,都要带上“大数据”三个字才显得时髦。大数据究竟是什么东西?有哪些相关技术?...

3467
来自专栏大数据文摘

从视觉检测窥探人类大脑和数字大脑的差别

1805

扫码关注云+社区