入门 | 做数据科学如烤蛋糕?不服来看

选自 goodaudience

作者:Azika Amelia

机器之心编译

参与:高璇、王淑婷

数据科学是什么,用来干什么?数据科学使用数学和不同的机器学习方法(也称算法)来实现不同目的。具体来讲,就和烤蛋糕的原理有些类似,至于怎么个类似法,请看作者的详细解说 ↓↓↓

面部识别、自动驾驶、机器人统治世界?!还有那个令人毛骨悚然的机器人女孩,索菲亚。emmm…还有黑镜?

我们想知道它们都是怎么工作的。「这全是人工智能。」是的。但我们想知道更多。

数据科学、人工智能、大数据、机器学习等都是最近的热门词汇。它们大多与谷歌、苹果和亚马逊等大型科技公司有关。

幸运的是,你不用成为一名数据科学家就能对数据科学有所了解。只要你对此热爱、好奇即可。

什么是数据科学?

要事第一!

向亚马逊的聊天机器人寻求答案

数据科学使用数学和不同的机器学习方法(也称算法)来实现不同目的。

机器学习(ML)是编写计算机程序的科学和艺术,它使计算机具有了学习能力。你的计算机现在可以从它观察到的数据中学习,而不是像在传统计算机程序中那样盲目地遵循一套固定规则。你骂电脑是笨蛋的日子一去不复返了。

但是数据科学在哪里发挥作用呢?就在我们身边。Facebook 给你推荐可能认识的人、Youtube 预测股票市场价格的推荐系统,都需要数据科学。

数据科学按照一系列步骤来获得这些答案,而使用机器学习算法只是其中之一。

数据科学流程综述

我们要明白这样一个事实:无论电脑学什么,它都是从数据中学习。将数据视为配料、数据预处理视为食谱、机器学习算法视为烤箱、最终结果视为蛋糕。蛋糕的美味程度取决于原料的质量、食谱和烤箱温度设置。同样地,数据的质量非常重要,你采用的方法也是如此。

数据科学流程抽象图

数据和数据预处理

因此,第一步是收集数据并进行处理。就像你要买食材一样。

还需要确保数据与将要解决的问题相关。弄清楚需要多少数据,以及数据的形式(或格式),就像做蛋糕你要方糖还是砂糖?真实世界的数据集通常以表格形式显示,例如.xls、.csv 或.json 等。

有大量不同的算法可以帮助你进行数据清理和预处理。训练模型的数据会极大地影响模型性能。就像食谱决定蛋糕的味道。

数据集类型

数据集是以适当格式收集所有示例的集合。它可以是一个*标注的*数据集,也可以是一个*未标注的*数据集。

标注的数据集是指具有特征值及其结果的数据集。而未标注的数据集中只有特征值。

特征好比不同的食材,如:牛奶、黄油、糖和鸡蛋是四个不同的特征。这些特征的结果是一个蛋糕。是特征帮你得到结果。

这是真实数据集的样子:

用于预测房价的标注数据集

选择机器学习算法

一旦数据集准备好了,就该使用机器学习算法了。这就是把蛋糕糊放进烤箱。

数据集和标签帮助你确定使用哪种算法。就像如果你想做一些冰淇淋,你需要的不是烤箱而是冰箱。你的配料和配方也会改变。

可供选择的算法

训练、测试、预测!

只学习测试中会出现的题目,你绝对会通过测试。但遇到没见过的题,就不会考得很好了。我们希望模型即使在没见过的例子上也能表现得很好。为了确保这一点,我们采用了一种技术。

我们将数据集分为两组:训练集和测试集。通常以 7:3 的比例来划分,这样有利于训练。

我们的模型仅从训练集的例子中学习。这样划分数据集可以帮助我们评估模型表现,明确提升空间。

训练-测试分解图

测试很简单。你问,模型答,然后给模型打分。它起作用是因为你是在未见过的例子上评估模型。通过的标准取决于你的需求。通常 80% 的通过率是可以达到的。

如果模型在第一次尝试中失败,不要失望,因为在最初的尝试中失败是很正常的。这是因为开始时你总是使用较简单的方法,然后根据测试得分,逐渐增加解决方案的复杂性。但在此之前,请重新评估你的数据集以及它的预处理方式。重复此过程,直到模型通过测试。

测试模型

一旦模型通过测试,就可以投入使用。换句话说,它为实时预测做好了准备。

提示:保持测试集中的数据模式与训练集中的数据模式相同。

数据可视化

既然你已经烤好了蛋糕,而且看起来很好吃,那就该上桌了。也许可以加一些糖霜,把它放在一个漂亮的托盘里等等。让它看起来更美味。

这就是数据可视化。通过制作图表,你可以利用不同的数据可视化技术向受众传达你对数据的理解。数据可视化可以在任何阶段进行,你可以在训练集中绘制现有的基础图案。

就像我说的,你不用成为数据科学家就能对数据科学有所了解。希望你喜欢我刚烤好的「蛋糕」。??

这是我写的第一篇博客。我最近开始了数据科学家的职业生涯。我觉得每个人——即使没有技术背景——都应该了解数据科学的基础知识。但是,大多数数据科学文章都充斥着技术术语,让外行人读起来佶屈聱牙,希望这篇文章能对你有所帮助。

原文链接:https://blog.goodaudience.com/data-science-a-piece-of-cake-92a70232e71f

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-10-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

职场 | 如何让你的数据直觉更敏锐

对于有大局意识的人来说,这无疑是一个很好的创业机会和职业选择。要想抓住职业机会,你需要超强的“码力”和深入的专业知识。

800
来自专栏程序你好

什么是机器学习和人工智能以及它们之间的差异

机器学习和人工智能的区别:“好的,谷歌!有什么事吗?你能演奏我最喜欢的曲目或者预订一辆从宫殿路到MG路的出租车吗?”

941
来自专栏人工智能快报

科学家研制出具有更好自学能力的计算机

物理研究门户网站phys.org发文称科学家开发出了一种基于神经启发的模拟计算机,它能够在执行任务时通过自我训练将自己变得更好。这个基于一种名为“储备池计算”的...

2806
来自专栏PPV课数据科学社区

AI时代就业指南:如何成为一名优秀的算法工程师?

1、算法工程师是做什么的? 广义上是指搞软件算法的,也就是开发和应用软件算法实现工业控制和程序处理。除了机器学习之外 还包括控制算法、图形算法等,狭义上现在谈算...

5618
来自专栏PPV课数据科学社区

深度 | 地平线罗恒:应用深度学习的门槛是在降低吗?

导读: 地平线机器人资深算法研究员罗恒参加了钛坦白第33期,与百度资深工程师、Paddle API重构设计负责人于洋及第四范式联合创始人、首席研究科学家陈雨强一...

3226
来自专栏人称T客

第四次产业革命:始于人工智能 | 周末长文

T客汇官网:tikehui.com 撰文 | 徐婧欣 ? 「最近十年,我们一直在建立一个移动优先(mobile-first)的世界,而接下来的十年里,我们的将转...

3646
来自专栏机器之心

前沿 | 不再需要动作捕捉,伯克利推出「看视频学杂技」的AI智能体

作者:Xue Bin (Jason) Peng 和 Angjoo Kanazawa

1953
来自专栏人工智能

每个人都应该知道的十个机器学习常识

当别人在高谈阔论机器学习时,你却插不上嘴,这是一种怎样的体验?不懂机器学习没有关系,但你一定要知道下面的十个机器学习基本常识。曾经在Endeca、谷歌和Link...

2035
来自专栏PPV课数据科学社区

☞【PPT】数据挖掘方法及案例介绍

1、数据挖掘的引入 面对山一样高的,海一样广的数据,我们该怎么办? ? 数据挖掘中的5W问题 ❶为什么要使用数据挖掘? ❷数据挖掘是什么? ❸谁在使用数据挖掘?...

44512
来自专栏机器人网

三个相关概念:深度学习Vs机器学习Vs模式识别

本文我们来关注下三个非常相关的概念(深度学习、机器学习和模式识别),最热门的科技主题(机器人和人工智能)的联系。

852

扫码关注云+社区

领取腾讯云代金券