笔者邀请您,先思考:
1 如何学习和应用数据科学?
一端是带入口的管道,另一端是出口。 管道上还标有五个不同的字母:“O.S.E.M.N.”
“信不信由你,你和数据没什么不同。 把自己置身于数据之中,你会明白为什么。“
曾几何时,有一个名叫Data的男孩。 在他的一生中,他总是试图了解他的目的是什么。 我有什么价值观? 我可以对这个世界产生什么影响? 数据来自哪里? 看到你和数据之间的任何相似之处? 这些问题始终在他的脑海中,幸运的是,凭借纯粹的运气,Data终于遇到了一个解决方案,并经历了一次巨大的变革。
这一切都始于数据沿着行走,当他遇到一个奇怪但有趣的管道时。 一端是带入口的管道,另一端是出口。 管道上还标有五个不同的字母:“O.S.E.M.N.”。 像他一样好奇,Data决定进入管道。 长话短说……来了数据和出来的洞察力。
说明:本文将简要介绍对典型数据科学管道中的预期的高级概述。 从构建业务问题到创建可操作的见解。 不要担心这将是一个容易阅读!
你真棒。 我真棒。 数据科学是OSEMN。 您可能会问为什么数据科学“很棒”? 好吧,作为有抱负的数据科学家,你有机会磨练你的巫师和侦探的力量。 通过巫师,我的意思是拥有自动预测事物的能力! 通过侦探,它能够找到数据中未知的模式和趋势!
了解数据科学管道如何工作的典型工作流程是迈向业务理解和解决问题的关键步骤。 如果您对数据科学管道的工作原理感到恐惧,请不要再说了。 这篇文章适合你! 我从Hilary Mason和Chris Wiggins那里找到了一个非常简单的首字母缩略词,您可以在整个数据科学管道中使用它。 那是O.S.E.M.N.
O - 获取我们的数据 S - 清洗我们的数据 E - 探索/可视化我们的数据将使我们能够找到模式和趋势 M - 对我们的数据建模将为我们提供作为向导的预测能力 N - 解释我们的数据
因此,在我们开始OSEMN管道之前,我们必须考虑的最关键和最重要的步骤是了解我们试图解决的问题。 让我们再说一遍。 在我们开始使用“数据科学”做任何事情之前,我们必须首先考虑我们试图解决的问题。 如果你想解决一个小问题,那么最多你会得到一个小解决方案。 如果您有一个大问题要解决,那么您将有可能获得一个大的解决方案。
问你自己:
“把钱拿出来!”
了解这一基本概念将带您走得更远,并带领您迈向成为“数据科学家”的更大步骤(我相信…对不起我不是一个!)但是,这仍然是您必须迈出的非常重要的一步 做! 无论您的模型预测得多好,无论您获得多少数据,无论您的OSEMN管道如何 ……您的解决方案或可操作的洞察力只会与您为自己设置的问题一样好。
“好的数据科学更多地是关于你对数据提出的问题,而不是数据处理和分析” - 莱利纽曼
在没有任何数据的情况下,您无法做任何数据科学家的事情。 根据经验,在获取数据时必须考虑一些事项。 您必须识别所有可用数据集(可以来自Internet或外部/内部数据库)。 您必须将数据提取为可用格式(.csv,json,xml等)。
所需技能:
清理第5列! 管道的这个阶段应该需要最多的时间和精力。 因为您的机器学习模型的结果和输出仅与您投入的结果和输出一样好。 基本上,垃圾进垃圾出。
目的:
所需技能:
“准备好的人将他的战斗打了一半” - 米格尔·德塞万提斯
现在,在探索阶段,我们试图了解数据的模式和值。 我们将使用不同类型的可视化和统计测试来支持我们的发现。 在这里,我们将能够通过各种图表和分析得出我们数据背后隐藏的含义。 出去探索!
“港口的船舶是安全的 - 但这不是船舶的建造目的。” - 约翰A.谢德。
目的:
所需技能:
提示:进行分析时,您的“蜘蛛感觉”会刺痛。 有意识发现奇怪的模式或趋势。 一直在寻找有趣的发现!
设计考虑:大多数时候人们直接进入视觉“让它完成”。 这都是关于最终用户的解释。 专注于您的受众。
有趣的来了。 模型是统计意义上的一般规则。将机器学习模型视为工具箱中的工具。 您将可以访问许多算法并使用它们来实现不同的业务目标。 您使用的特征越多,您的预测能力就越好。 清理数据并发现最重要的特征后,将模型用作预测工具只会增强您的业务决策。
Predictive Analytics正在成为改变游戏规则的方式。 而不是向后看以分析“发生了什么?”预测分析帮助管理人员回答“下一步是什么?”和“我们应该怎么做?”(福布斯杂志,2010年4月1日)
预测能力示例:在沃尔玛的供应链中可以看到一个很好的例子。 沃尔玛能够预测,他们会在飓风季节期间在他们的一家商店销售他们所有的草莓流行挞。 通过数据挖掘,他们的历史数据显示,在飓风事件发生之前销售的最受欢迎的项目是Pop-tarts。 听起来很疯狂,这是一个真实的故事,并提出了不低估预测分析能力的观点。
目的:
所需技能:
“模型是数学中的意见” - 凯茜奥尼尔
这是故事时间!最重要的一步是了解并学习如何通过沟通解释您的发现。讲述故事是关键,不要低估它。它是关于与人交往,说服他们,并帮助他们。理解您的受众并与他们联系的艺术是数据叙事的最佳部分之一。
“我相信讲故事的力量。故事让我们的心灵开启了一个新的地方,这开启了我们的思想,往往导致行动“ - 梅琳达盖茨
情感在数据叙事中起着重要作用。人们不会神奇地理解你的发现。产生影响的最佳方式是通过情感讲述你的故事。我们作为人类自然受到情绪的影响。如果你可以利用你的观众的情绪,那么你的朋友,你是可以控制的。当您呈现数据时,请记住心理学的力量。理解您的受众并与他们联系的艺术是数据叙事的最佳部分之一。
最佳实践:我强烈建议加强您的数据讲故事的一个好习惯是一遍又一遍地进行排练。如果您是父母,那么对您来说是个好消息。而不是在睡觉前向您的孩子阅读典型的Dr. Seuss书籍,请尝试使用您的数据分析结果让他们入睡!因为如果一个孩子理解你的解释,那么任何人都可以,尤其是你的老板!
“如果你无法向六岁的孩子解释,你自己就不明白。” - 爱因斯坦
目的:
所需技能:
不要担心你的故事不会在这里结束。在您的模型投入生产时,根据您接收新数据的频率,定期更新模型非常重要。您收到的数据越多,更新的频率就越高。让我们说你是亚马逊,你为客户推出了一项新功能,购买“鞋功能”。你是旧模型没有这个,现在你必须更新包含此功能的模型。如果没有,您的模型会随着时间的推移而降级,并且性能不会很好,从而使您的业务也会降级。新功能的引入将通过不同的变化或可能与其他功能的相关性来改变模型性能。
综上所述,
获取数据,清理数据,使用可视化探索数据,使用不同的机器学习算法建模数据,通过评估解释数据以及更新模型。
请记住,我们与数据没有什么不同。我们都有这个世界存在的价值观,目的和理由。
事实上,您将面临的大多数问题都是工程问题。即使有一个伟大的机器学习上帝的所有资源,大多数影响将来自伟大的特征,而不是伟大的机器学习算法。所以,基本方法是:
希望这种方法可以赚很多钱,并且/或者让很多人在很长一段时间内感到高兴。
所以…下次有人问你什么是数据科学。告诉他们:
“数据科学是OSEMN”
我希望你们今天学到了一些东西!如果您想在本文中添加任何内容,请随时留言并不要犹豫!任何形式的反馈都非常值得赞赏。不要害怕分享这个!谢谢!
作者:Randy Lao 原文链接:
https://www.kdnuggets.com/2018/05/beginners-guide-data-science-pipeline.html
版权声明:作者保留权利,严禁修改,转载请注明原文链接。