数据科学家眼中的大数据和云计算

叶锦鲤

发布于 2018-03-15 11:16:15

1.5K0

发布于 2018-03-15 11:16:15

文章被收录于专栏：悦思悦读悦思悦读

本次分享第【1】部分：什么是数据科学。

分享主题：Data Science学习分享会

分享时间：2016年4月18日晚8：00-10：00

分享地点：赤兔“数据挖掘”小组，线上

分享嘉宾：黄逸洲，来自美国华盛顿大学信息管理专业的研究生，专攻数据科学。

这一部分主要是讲大规模数据处理平台和云计算平台。

由于现在数据量在不断增加，单独的机器很难完成大规模的数据处理。所以引进了hadoop和spark这样的平台，提供更好地平行计算能力，容错能力，以及load balance，极大的提高了数据处理的的速度和规模。

由于很多公司难以负担自己组建一个数据中心，所以就出现了诸如AWS，Microsoft Azure，和GoogleData Platform这样的与服务供应商。通过提供付费的云端服务，为众多的公司提供软硬件支持。

首先介绍学习大数据处理平台。

需要了解Map-Reduce的基本原理，这是大规模数据处理的基本框架。

用一个我看过的最好的例子就是41一个字讲通map-reduce的基本原理：

当然除了map和reduce两个过程，中间还有一个group和shuffle的过程。目的是把相同类的结果放在一起，便于后面的reduce计算。

第二部分是了解hadoop和其生态圈，如HDFS， Yarn， Hbase，Zoopker。

大概就是这么个框架，每个部分具有不同的功能，完成不同的任务，根据需要进行学习即可。

推荐阅读google三篇论文，这个是hadoop和map-reduce的基础。讲得非常全面，对自己学习这方面的知识很有帮助。

还有推荐使用hortonworks sandbox，这是个免费得平台，并提供一系列完整的课程，帮助大家学习hadoop及其生态圈的相关知识。

除了hadoop，另一个就是spark平台。由于是在内存中处理，所以速度要比hadoop快，我们老师推荐是使用scala配合spark一起使用，会很有帮助。

还有，就是掌握一些数据库的知识，例如DBMS和NoSQL。后者更符合大规模数据处理的要求，能快速的处理数据，并且对数据的结构没有太大要求，相比于传统数据库，在这方面会更有优势。例如，NoSQL有MongoD，DBMS有mysql和postgreSQL。

另外，就是了解一些OLTP和数据仓库的知识。在很多商业数据处理方面，需要用到这类知识来更好做数据汇报。

最后要就是云计算服务了。

云计算服务有三种模式，SaaS，PaaS，和IaaS。根据公司需求的不同可以选择不同的服务：

SaaS：软件即服务, 用户无需安装软件, 而是用标准客户端(浏览器)即可使用软件服务,比如Google Docs。
IaaS：基础设施即服务, 用户无需购买硬件, 而是租赁云计算提供商的基础设施, 部署自己的OS, 进行自己的计算, 这里的用户一般是商业机构而不是终端消费者。IaaS最有名的提供商是亚马逊的AWS。
PaaS：与IaaS类似, 只是用户不再控制OS, 而是利用云计算提供商提供的OS和开发环境做开发。

这张图就是解释不同云服务所控制的范围的差别：