前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Uber的大数据之道

Uber的大数据之道

作者头像
IT阅读排行榜
发布2018-08-14 16:40:27
3930
发布2018-08-14 16:40:27
举报
文章被收录于专栏:华章科技华章科技华章科技
文丨Chandar

来源丨董老师在硅谷(ID:donglaoshi-123),本文获授权转载

原文网址:http://mp.weixin.qq.com/s?__biz=MzA3NTM4NDE2Mw==&mid=2649545686&idx=1&sn=4a6c5d5d09fa76ca3a5662beb1e6b2ba&scene=23&srcid=05315S6GIwxHraeQrvceJyeA

之前发了一篇Spark的,Apache Spark 2.0最新进展:更快,更容易,更智能,其实很多硅谷公司也积极采用Spark作为大数据的基础组件了。下面这一篇就来自于Uber数据架构组,他们负责人Chandar说:Spark 已经是”必备神器了”。 旧架构下,Uber依赖于Kafka的数据流将大量的日志数据传输到AWS的S3上,然后使用EMR来处理这些数据。然后再从EMR导入到可以被内部用户以及各个城市使用的关系型数据库中。 现在基于Spark的流式IO架构,用来取代之前的Python ETL 架构。新系统从关系型数据仓库表模型将原始数据摄取做了必要的解耦。 取而代之的是在一个关系模型中从多个分布式数据中心聚合行程数据,新的架构使用Kafka从本地数据中心来提供实时数据日志,加载他们到中心化的Hadoop集群中。 接着系统用Spark SQL 将非结构化的JSON转化为更加结构化的可以使用Hive来做SQL分析的Parquet文件。 通过利用Spark和Spark Streaming 将系统变得长期稳定运行的节点上。运行Spark任务、Hive、机器学习以及所有组件,将Spark的潜能彻底释放出来。 下面是PPT:

END

版权声明:

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-06-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档