从头开始学习数据科学

大数据杂货铺

发布于 2020-02-11 16:17:11

7700

文章被收录于专栏：大数据杂货铺大数据杂货铺

为什么选择数据科学？

据说数据科学家是“ 21世纪最勤奋的工作”。为什么？因为在过去的几年中，公司一直在存储他们的数据。每家公司都在这样做，它突然导致了数据爆炸。数据已成为当今最丰富的东西。

但是，您将如何处理这些数据？让我们通过一个例子来理解这一点：

假设您有一家生产手机的公司。您发布了您的第一个产品，并因此大受欢迎。每种技术都有生命，对吗？因此，现在该提出新的东西了。但是您不知道应该创新什么，以满足那些迫切等待下一个版本的用户的期望？

您公司中的某个人提出了一个使用用户生成的反馈的想法，并选择我们认为用户在下一个版本中期望的东西。

进入数据科学领域后，您可以应用各种数据挖掘技术，例如情感分析等，并获得所需的结果。

不仅如此，您可以做出更好的决策，还可以通过高效的方式降低生产成本，并为客户提供他们真正想要的东西！

这样，数据科学可以带来无数的好处，因此，对于您的公司而言，拥有数据科学团队绝对是必要的。此类要求导致今天以“数据科学”为主题。

什么是数据科学？

随着数学统计和数据分析的发展，最近出现了“数据科学”一词。数学统计和数据分析的发展的旅途非常了不起，今天我们在数据科学领域已经取得了许多成就。

在未来几年中，我们将能够根据MIT研究人员的预测来预测未来。通过出色的研究，他们已经在预测未来方面达到了里程碑。现在，他们可以使用自己的机器来预测电影下一幕将会发生什么！怎么样？到目前为止，您可能还不太了解，但是不要担心，在本博客的结尾，您也将找到答案。

回过头来，我们谈论的是数据科学，它也称为数据驱动科学，它利用科学方法，过程和系统从各种形式（即结构化或非结构化）的数据中提取知识或见解。

这些方法和过程是什么，这就是我们今天将在此数据科学教程中讨论的内容。

向前迈进，这是谁在头脑风暴，还是谁在实践数据科学？一个数据科学家。

谁是数据科学家？

正如您在图中所看到的，数据科学家是所有行业的大师！他应该精通数学，应该精通商业领域，并且还应该具有出色的计算机科学技能。害怕吗？不用害怕。尽管您需要在所有这些领域都表现出色，但是即使您不是如此，也不孤单！没有“一个完整的数据科学家”之类的东西。如果我们谈论在公司环境中工作，则工作分布在各个团队之间，其中每个团队都有自己的专业知识。但事实是，您应该精通这些领域中的至少一个。此外，即使您不熟悉这些技能，也请放心！这可能需要一些时间，但是可以发展这些技能，相信我，这是值得您投入的时间。为什么？好吧，让我们看看工作趋势。

数据科学家工作趋势

好吧，该图说明了一切，不仅数据科学家有很多职位空缺，而且这些职位的报酬也很高！不，我们的博客不会涵盖工资数字，请去Google！

好吧，我们现在知道，学习数据科学实际上是有道理的，不仅因为它非常有用，而且在不久的将来您将拥有一个出色的职业。

让我们现在开始学习数据科学的旅程。

如何解决数据科学中的问题？

因此，现在，让我们讨论如何解决问题并使用数据科学解决问题。数据科学中的问题使用算法解决。但是，要判断的最大问题是使用哪种算法以及何时使用它？

基本上，在数据科学中您可以面对5种问题。

让我们一一解决这些问题以及相关的算法：

这是A还是B？

关于这个问题，我们指的是具有绝对答案的问题，因为在具有固定解决方案的问题中，答案可能是“是”或“不是”，1或0，感兴趣的，也许是或不感兴趣的。

例如：

问：您将喝什么，茶还是咖啡？

在这里，您不能说要喝可乐！由于该问题仅提供茶或咖啡，因此您只能回答其中之一。

当我们只有两种类型的答案时，即“是”或“否”，“ 1”或“ 0”，被称为2类分类法。具有两个以上的选项，称为多类分类。

最后，每当遇到问题时，答案都是明确的，在数据科学中，您将使用分类算法来解决这些问题。

您可能会遇到《数据科学教程》中的下一个问题，也许是这样的，

这很奇怪吗？

此类问题涉及模式，可以使用异常检测算法解决。

例如：

尝试将问题“这很奇怪？”与该图相关联，

上面的模式有什么怪异的？红家伙，不是吗？

每当模式中断时，算法都会标记该特定事件供我们查看。信用卡公司已经实现了该算法的实际应用，其中，用户的任何异常交易都被标记为需要审查。因此实现了安全性并减少了人员在监视方面的工作。

让我们看一下《数据科学教程》中的下一个问题，不要害怕，可以处理数学！

多少？

你们那些不喜欢数学的人会放心！回归算法在这里！

因此，只要有可能需要数字或数值的问题，我们都会使用回归算法来解决。

例如：

明天气温如何？

由于我们期望在响应此问题时使用一个数值，因此我们将使用回归算法对其进行求解。

在本数据科学教程中继续学习下一个算法，

这是如何组织的？

假设您有一些数据，但现在您不知道如何利用这些数据。因此，问题是如何组织的？

好了，您可以使用聚类算法解决它。他们如何解决这些问题？让我们来看看：

聚类算法根据常见特征对数据进行分组。例如，在上图中，基于颜色来组织点。同样，无论是任何数据，聚类算法都试图了解它们之间的共同点，因此将它们“聚类”在一起。

您可能会遇到的本数据科学教程中的下一个也是最后一个问题是，

接下来我该怎么办？

每当遇到问题（其中计算机必须根据所接受的培训来做出决定）时，它都会涉及到加固算法。

例如：

您的温度控制系统必须决定是降低房间温度还是提高房间温度。

这些算法如何工作？

这些算法基于人类心理学。我们喜欢被欣赏对吗？计算机实现这些算法，并期望在接受培训时得到赞赏。怎么样？让我们来看看。

与其教计算机做什么，不如让计算机决定如何做，并且在该操作结束时，您给出正面或负面的反馈。因此，您不必让系统定义“正确”和“错误”，而是让系统“决定”做什么，最后给出反馈。

就像训练你的狗一样。你不能控制你的狗做什么，对不对？但是当他做错事时，你可以责骂他。同样，当他完成预期的操作时，也许会拍打他的背。

让我们在上面的示例中应用这种理解，假设您正在训练温度控制系统，那么每当否。房间中的人数增加，系统必须采取措施。降低温度或升高温度。由于我们的系统什么都不知道，因此需要做出随机决定，让我们假设，这会增加温度。因此，您给出负面的反馈。这样一来，计算机就会知道房间中人数的增加，永远不会增加温度。

同样，对于其他操作，您应提供反馈。有了您的系统正在学习的每个反馈，因此在下一个决策中它会变得更加准确，这种学习类型称为强化学习。

现在，我们在本数据科学教程中上面学习的算法涉及一种常见的“学习实践”。我们正在使机器学习正确吗？

什么是机器学习？

这是一种人工智能，它使计算机能够自行学习，即无需显式编程。通过机器学习，机器可以在遇到新情况时更新自己的代码。

在本数据科学教程的结尾，我们现在知道数据科学得到了机器学习及其分析算法的支持。我们如何进行分析，我们在哪里进行分析。数据科学还具有一些组件，可以帮助我们解决所有这些问题。

在此之前，让我回答一下MIT如何预测未来，因为我认为你们现在可以将其联系起来。因此，麻省理工学院的研究人员通过电影训练了他们的模型，并且计算机了解了人类如何反应，或者他们在采取行动之前如何行动。

例如，当您要与某人握手时，您可以从口袋里掏出手，或者靠在那个人身上。基本上，我们所做的每件事都会有一个“行动前”。在电影帮助下的计算机已经接受了这些“预操作”的培训。然后，通过观察越来越多的电影，他们的计算机可以预测角色的下一个动作。

容易吗？然后让我在此数据科学教程中向您提出另一个问题！他们必须在其中实现哪种机器学习算法？

数据科学组件

数据集

您将分析什么？数据，对不对？您需要大量可以分析的数据，这些数据会馈送到您的算法或分析工具中。您可以从过去进行的各种研究中获得这些数据。

R Studio

R是R基金会支持的用于统计计算和图形的开源编程语言和软件环境。R语言在称为R Studio的IDE中使用。

为什么使用它？

编程与统计语言

除了用作统计语言外，还可以将其用作分析目的的编程语言。

数据分析与可视化

除了是最主要的分析工具之一，R还是用于数据可视化的最受欢迎的工具之一。

简单易学

R是一个简单易学，易读易写的

免费和开源

R是FLOSS（自由/自由和开源软件）的一个示例，它意味着人们可以自由分发此软件的副本，阅读其源代码，对其进行修改等。

R Studio足以进行分析，直到我们的数据集变得庞大且同时也没有结构化。这种数据称为大数据。

大数据

大数据是指庞大而复杂的数据集的集合，以至于难以使用现有的数据库管理工具或传统的数据处理应用程序进行处理。

现在要驯服这些数据，我们不得不想出一个工具，因为没有传统的软件可以处理这种数据，因此我们想出了Hadoop。

Hadoop

Hadoop是一个框架，可帮助我们并行和以分布方式存储和处理大型数据集。

让我们专注于Hadoop的存储和处理部分。

存储

Hadoop中的存储部分由HDFS（即Hadoop分布式文件系统）处理。它在整个分布式生态系统中提供了高可用性。它的功能方式是这样的，它将输入的信息分解为多个块，然后将它们分布到集群中的不同节点，从而实现分布式存储。

处理

MapReduce是Hadoop处理的核心。该算法执行两个重要任务，即映射和归约。映射器将任务分解为较小的任务，这些任务将并行处理。一次，所有的映射器都分担工作，汇总结果，然后通过化简过程将这些结果降低为更简单的值。

如果我们将Hadoop用作数据科学中的存储，则由于R Studio无法在分布式环境中正常运行，因此很难使用R Studio处理输入，因此我们有了SparkR。

Spark R

它是一个R软件包，提供了将Apache Spark与R结合使用的轻量级方法。为什么要在传统R应用程序上使用它？因为，它提供了分布式数据框架实现，该实现支持选择，过滤，聚合等操作，但支持大型数据集。

现在喘口气！我们已经完成了本数据科学教程中的技术部分，现在就从您的工作角度来看它。我认为您现在已经可以为数据科学家寻找薪水了，但是，让我们讨论一下您可以作为数据科学家使用的职位。

数据科学家的职位

一些著名的数据科学家职位是：

• 数据科学家

• 数据工程师

• 数据架构师

• 数据管理员

• 数据分析师

• 业务分析师

• 数据/分析经理

• 商业智能经理

以下此数据科学指南中的Payscale.com图表显示了按美国和印度的技能划分的数据科学家的平均工资。

掌握数据科学和大数据分析技能的时机已经成熟，可以利用您所遇到的数据科学职业机会。

来源：https://www.edureka.co/blog/data-science-tutorial/

作者：Hemant Sharma

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-01-04，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自大数据杂货铺微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

从头开始学习数据科学

从头开始学习数据科学

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐