前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据架构前沿实践分享

大数据架构前沿实践分享

作者头像
腾讯大数据
发布2020-12-14 10:10:14
1.3K0
发布2020-12-14 10:10:14
举报

12月19日,9:00-12:40,由来自腾讯数据湖研发负责人邵赛赛老师出品的DataFunTalk年终大会——大数据架构论坛,将邀请来自腾讯、Tubi、车好多、T3出行、滴滴出行等公司的6位嘉宾,就大数据架构相关主题进行分享。本次会议全程直播,详细信息如下:

01

专题论坛及日程

论坛名称

大数据架构论坛

论坛时间

12月19日,09:00-12:40

论坛出品

邵赛赛 腾讯 数据湖研发负责人

分享时间

分享内容

09:00-09:40

如何让Ozone成为HDFS的下一代分布式存储系统腾讯高级工程师毛宝龙

09:45-10:25

Data Quality Architecture in TubiTubi ( 比图科技 ) Senior Data Engineer沈达

10:30-11:10

结构化大数据链路在车好多的实践车好多大数据负责人汪涉洋

11:15-11:55

基于Apache Hudi构建数据湖上低延迟CDC的实践T3出行大数据平台负责人/资深大数据工程师杨华/刘金辉

12:00-12:40

基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系滴滴出行高级专家工程师张亮

02

论坛报名

识别二维码,免费报名

03

详细介绍

出品人:

邵赛赛

腾讯 | 数据湖研发负责人

出品人简介: 邵赛赛,腾讯大数据专家,数据湖研发负责人,Apache社区member,Spark及Livy项目PMC

分享嘉宾:

毛宝龙

腾讯 | 高级工程师

演讲者简介: 毛宝龙,来自腾讯数据湖团队,目前专注于开发Ozone,以及Alluxio在腾讯的落地和应用工作。是Ozone开源社区的committer 和 Alluxio 社区的 PMC 成员。

演讲议题:如何让Ozone成为HDFS的下一代分布式存储系统

演讲议题介绍:Ozone是当前Apache Hadoop生态圈的一款新的对象存储系统,OZone与HDFS有着很深的关系,在设计上,很多地方也参考了HDFS,并对HDFS存在的不足做了很多改进。很多公司看重的不是Ozone的对象存储能力,而是Ozone标榜自己是HDFS的下一代的目标。我们抓住了这一点,并做出了比社区Ozone Filesystem 方案更彻底的 HDFS on Ozone架构设计和实现,并取得了阶段性成绩。

听众收益:

· 了解Ozone是什么,与HDFS、S3的关系和区别

· 了解HDFS on Ozone方案相比HDFS 和 Ozone的优势

· 了解提升HDFS吞吐和元数据扩展性的方法

新技术/实用技术点:

· Ozone和Hadoop Distributed Data Store (HDDS) 的架构

· Hadoop compatible filesystem的HDDS实现

· 利用细粒度锁实现更高的服务吞吐能力

· 分层级管理元数据实现元数据无限扩展

· 基于RATIS的NameNode的HA实现

沈达

Tubi (比图科技) | Senior Data Engineer

演讲者简介: 沈达,毕业于中国科学技术大学计算机系,译有《Scala实用指南》,活跃于Scala社区,Apache Spark Contributor,目前是比图科技的Senior Data Engineer。曾基于Spark Catalyst实现过适用于金融风控场景的高性能SQL引擎。

演讲议题:Data Quality Architecture in Tubi

演讲议题介绍:介绍比图科技数据团队如何保障数据质量:及时发现潜在的数据质量问题,并针对处理。介绍比图科技数据质量系统的架构:如何构建简洁、低成本、易于维护的数据质量工作流

听众收益:了解数据质量问题的成因、影响和多种解决方案,了解各种数据质量解决方案(Deequ/Apache Griffin等)的优劣,如何设计一套合理的数据质量问题“发现-处理”的工作流程。

新技术/实用技术点:通过扩展Spark SQL实现使用SQL同时在批处理和流式处理中收集Metrics

汪涉洋

车好多 | 大数据负责人

演讲者简介: 汪涉洋,车好多集团(瓜子二手车母公司)大数据团队负责人,负责消息队列、大数据存储、流批计算引擎、OLAP引擎等技术在瓜子的落地。曾就职于hulu、redhat等公司,知乎专栏《大数据sre的思考》作者,在数据基础架构领域有多年从业经验。

演讲议题:结构化大数据链路在车好多的实践

演讲议题介绍:本次演讲主要介绍车好多集团围绕kafka生态搭建的大数据链路技术发展历程。从基于sqoop、flume等第一代数据链路,到第二代基于avro+kafka connect体系的第二代链路,到当下基于数据湖hudi技术在开发的第三代数据链路,会着重讲解过程中遇到的挑战,以及每一代架构的特点及局限,最后展望本领域技术的未来。

听众收益: 大数据ingest技术最佳实践,以及发展历史。

新技术/实用技术点:kafka 、 数据湖hudi 、avro schema注册中心

杨华

T3出行 | 大数据平台负责人

杨华:T3 出行大数据平台负责人。Apache Hudi committer & PMC member。Apache Kylin committer 及 Flink Cube 引擎作者。Apache Flink 国内早期布道者及活跃贡献者。前腾讯高级工程师,曾主导 Flink 框架在腾讯从落地到支撑日均近 20 万亿消息的处理规模。

刘金辉

T3出行 | 资深大数据工程师

刘金辉:T3 资深大数据工程师

演讲议题:基于Apache Hudi构建数据湖上低延迟CDC的实践

演讲议题介绍:T3 出行是国内首家基于车联网的网约车平台,汇聚了人、车、路、云多样化的海量数据。由于出行行业长尾的支付窗口属性,我们发现传统的Hadoop数仓已经不适合我们的体系。而Apache Hudi作为一个新兴的数据湖框架正变得越来越流行,Hudi为数据湖带来了很多优秀的特性,例如记录级的Upsert/Delete、ACID事务语义、数据与存储的版本管理、增量处理、多种数据视图等等,都是相比传统数仓的巨大突破。这些特性帮助T3解决了很多问题,其中一个很大特性就是支持关系型数据库以低延迟的CDC机制往数据湖同步数据。

听众收益:

1. Apache Hudi 介绍

2. Hudi 解决了Hive数仓哪些问题

3. Hudi 在 T3 出行低延迟数据同步管道的落地实践

4. T3出行对Hudi的改进与扩展

张亮

滴滴出行 | 高级专家工程师

演讲者简介: 张亮2014年加入滴滴,主持构建过任务调度系统、监控系统、日志服务、实时计算、同步中心等平台设计与研发工作,目前在负责LogAgent、Kafka 、ElasticSearch、OLAP的引擎建设工作,具有丰富的高并发、高吞吐场景的架构设计与研发经验。

演讲议题:基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系

演讲议题介绍:滴滴开源Kafka-Manager脱胎于滴滴内部4年多的Kafka服务运营经验,服务了公司内数千Kafka用户,托管了数十Kafka集群,数万Kafka Topic,单集群>300+Broker,峰值CPU利用率>40%,面向Kafka用户、Kafka运维人员,提供了一套较完善的kafka指标体系及运维管控的能力,打造一套共享多租户kafka云平台,内部满意度达到90分!

听众收益:基于滴滴开源Kafka-Manager搭建企业级的Kafka服务运营平台

新技术/实用技术点:滴滴开源Kafka-Manager的架构与产品设计思考

04

论坛报名

识别二维码,免费报名

▽点击阅读原文,直达报名页!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-12-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档