数据科学家眼中的大数据和云计算

本次分享第【1】部分:什么是数据科学

本次分享第【2】部分:如何从小白成长为数据科学家

本次分享第【3】部分:如何以Python为工具走入数据科学之门

分享主题:Data Science学习分享会

分享时间:2016年4月18日晚8:00-10:00

分享地点:赤兔“数据挖掘”小组,线上

分享嘉宾:黄逸洲,来自美国华盛顿大学信息管理专业的研究生,专攻数据科学。

这一部分主要是讲大规模数据处理平台和云计算平台。

由于现在数据量在不断增加,单独的机器很难完成大规模的数据处理。所以引进了hadoop和spark这样的平台,提供更好地平行计算能力,容错能力,以及load balance,极大的提高了数据处理的的速度和规模。

由于很多公司难以负担自己组建一个数据中心,所以就出现了诸如AWS,Microsoft Azure,和GoogleData Platform这样的与服务供应商。通过提供付费的云端服务,为众多的公司提供软硬件支持。

首先介绍学习大数据处理平台。

需要了解Map-Reduce的基本原理,这是大规模数据处理的基本框架。

用一个我看过的最好的例子就是41一个字讲通map-reduce的基本原理:

  • 目标是:计算图书馆中书的数量。
  • map:我数第一个书架,另一个人数第二个书架。
  • reduce:把两个人数的数加起来。

当然除了map和reduce两个过程,中间还有一个group和shuffle的过程。目的是把相同类的结果放在一起,便于后面的reduce计算。

第二部分是了解hadoop和其生态圈,如HDFS, Yarn, Hbase,Zoopker。

大概就是这么个框架,每个部分具有不同的功能,完成不同的任务,根据需要进行学习即可。

推荐阅读google三篇论文,这个是hadoop和map-reduce的基础。讲得非常全面,对自己学习这方面的知识很有帮助。

还有推荐使用hortonworks sandbox,这是个免费得平台,并提供一系列完整的课程,帮助大家学习hadoop及其生态圈的相关知识。

除了hadoop,另一个就是spark平台。由于是在内存中处理,所以速度要比hadoop快,我们老师推荐是使用scala配合spark一起使用,会很有帮助。

还有,就是掌握一些数据库的知识,例如DBMS和NoSQL。后者更符合大规模数据处理的要求,能快速的处理数据,并且对数据的结构没有太大要求,相比于传统数据库,在这方面会更有优势。例如,NoSQL有MongoD,DBMS有mysql和postgreSQL。

另外,就是了解一些OLTP和数据仓库的知识。在很多商业数据处理方面,需要用到这类知识来更好做数据汇报。

最后要就是云计算服务了。

云计算服务有三种模式,SaaS,PaaS,和IaaS。根据公司需求的不同可以选择不同的服务:

  • SaaS:软件即服务, 用户无需安装软件, 而是用标准客户端(浏览器)即可使用软件服务,比如Google Docs。
  • IaaS:基础设施即服务, 用户无需购买硬件, 而是租赁云计算提供商的基础设施, 部署自己的OS, 进行自己的计算, 这里的用户一般是商业机构而不是终端消费者。IaaS最有名的提供商是亚马逊的AWS。
  • PaaS:与IaaS类似, 只是用户不再控制OS, 而是利用云计算提供商提供的OS和开发环境做开发。

这张图就是解释不同云服务所控制的范围的差别:

打个比方,公路就是IaaS。如果没人使用这个公路,它也就没有什么作用。Paas就是汽车,提供各种通勤的服务。汽车里面的人和货物根据功能的不同,就相当于Saas。

云服务的出现满足了企业对于硬件的按需的要求。不需要自己拥有硬件,只需要一个账号和每个月的付费,就能得到看似没有上限的技术服务与存储空间,极大的节约了成本。也满足了对于可拓展性的要求,具有极大的弹性。

AWS,Azure,和GDP都是不同时期先后成立的云服务供应商。其中以AWS最为成熟,时间最久,市场占有率也最高。

这张图表现了每个平台的市场占有率:

这张图是三个平台比较全面的比较,各有不同,各有优势,根据自身需要选择相应的平台即可。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2016-04-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏奇点大数据

大数据、人工智能与云计算的融合与应用

摘 要:通过对数据处理阶段性发展的解析,分析大数据、人工智能技术的发展趋势。结合实际生产需求,验证了基于容器云架构的新一代大数据与人工智能平台在数据分析、处理、...

3594
来自专栏云加头条

秦俊:开放 DevOps 敏捷开发套件,助力开发者驰骋云端

DevOps可以让人工智能(AI)、大数据(Bigdata)、云计算(Cloud)更加高效地落地,越来越多的企业和团队在践行DevOps。腾讯云DevOps产品...

4809
来自专栏MixLab科技+设计实验室

全栈设计师技术Wiki之商业智能

封面由 ARKie 智能生成,小编御用 AI 设计师。 商业智能 BI ,Business Intelligence 此概念最早于 1996 年由加特纳集团(...

3098
来自专栏腾讯研究院的专栏

Spark上的大数据平台都能做什么?

Paxata是一家应用机器学习技术处理大数据难题的初创公司。公司致力于将数据科学家和业务分析师从数据准备工作中解放出来,使他们能够专注于数据分析工作。 最...

1986
来自专栏罗超频道

微博开推的内容开放协议,会再造一个互联网吗?

内容创业浪潮正在深刻改变互联网的形态:基于URL的WEB已不再是主流形式,反而是一个个内容平台,正在形成大量的“内容孤岛”:微博、微信、今日头条、百家号、企鹅号...

35210
来自专栏理论坞

如何做别人眼中专业的交互设计师

最近发现网上可以学习的交互知识和如何去做交互设计的内容还是比较匮乏,所以想将自己这些年做互金行业的一些交互知识经验贡献出来,希望给一些刚入行的朋友看到能有所收获...

1462
来自专栏Forrest随想录

运维架构是全站技术架构中不可分割的一部分

从这篇文章开始,准备从架构设计层面谈谈Dev和Ops的关系,而不是单纯从组织架构和协作模式上的Dev和Ops关系。

825
来自专栏WeTest质量开放平台团队的专栏

手游精品化的第三年,谁在窃取手游开发者的利益?

腾讯WeTest推出”手游一站式质量提升方案“,解决手游开发者难题......

1940
来自专栏应用案例

教你如何让小程序一直名列前茅

微信小程序经过一年的发酵,已经有很多企业入驻到这个市场里面去了。那么企业多起来了,那么产品也自然多起来。这样就自然而然的涉及到一个问题,用户如何能直接快速的触达...

2197
来自专栏腾讯大讲堂的专栏

社区产品如何利用用户的个人沉淀内容创造价值【社区类APP探讨②】

社区产品的一个很重要的目标就是让用户能够在社区里面创造内容,同时,用户留下的内容成为了他在这个社区的个人沉底,而这种个人沉底也是社区能够留住用户的一个重要砝码。...

3068

扫码关注云+社区

领取腾讯云代金券