大数据架构前沿实践分享

腾讯大数据

发布于 2020-12-14 10:10:14

1.3K0

发布于 2020-12-14 10:10:14

12月19日，9：00-12：40，由来自腾讯数据湖研发负责人邵赛赛老师出品的DataFunTalk年终大会——大数据架构论坛，将邀请来自腾讯、Tubi、车好多、T3出行、滴滴出行等公司的6位嘉宾，就大数据架构相关主题进行分享。本次会议全程直播，详细信息如下：

专题论坛及日程

论坛名称	大数据架构论坛
论坛时间	12月19日，09:00-12:40
论坛出品	邵赛赛腾讯数据湖研发负责人
分享时间	分享内容
09:00-09:40	如何让Ozone成为HDFS的下一代分布式存储系统腾讯高级工程师毛宝龙
09:45-10:25	Data Quality Architecture in TubiTubi ( 比图科技 ) Senior Data Engineer沈达
10:30-11:10	结构化大数据链路在车好多的实践车好多大数据负责人汪涉洋
11:15-11:55	基于Apache Hudi构建数据湖上低延迟CDC的实践T3出行大数据平台负责人/资深大数据工程师杨华/刘金辉
12:00-12:40	基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系滴滴出行高级专家工程师张亮

论坛报名

识别二维码，免费报名

详细介绍

出品人：

邵赛赛

腾讯 | 数据湖研发负责人

出品人简介：邵赛赛，腾讯大数据专家，数据湖研发负责人，Apache社区member，Spark及Livy项目PMC

分享嘉宾：

毛宝龙

腾讯 | 高级工程师

演讲者简介：毛宝龙，来自腾讯数据湖团队，目前专注于开发Ozone，以及Alluxio在腾讯的落地和应用工作。是Ozone开源社区的committer 和 Alluxio 社区的 PMC 成员。

演讲议题：如何让Ozone成为HDFS的下一代分布式存储系统

演讲议题介绍：Ozone是当前Apache Hadoop生态圈的一款新的对象存储系统，OZone与HDFS有着很深的关系，在设计上，很多地方也参考了HDFS，并对HDFS存在的不足做了很多改进。很多公司看重的不是Ozone的对象存储能力，而是Ozone标榜自己是HDFS的下一代的目标。我们抓住了这一点，并做出了比社区Ozone Filesystem 方案更彻底的 HDFS on Ozone架构设计和实现，并取得了阶段性成绩。

听众收益：

· 了解Ozone是什么，与HDFS、S3的关系和区别

· 了解HDFS on Ozone方案相比HDFS 和 Ozone的优势

· 了解提升HDFS吞吐和元数据扩展性的方法

新技术/实用技术点：

· Ozone和Hadoop Distributed Data Store (HDDS) 的架构

· Hadoop compatible filesystem的HDDS实现

· 利用细粒度锁实现更高的服务吞吐能力

· 分层级管理元数据实现元数据无限扩展

· 基于RATIS的NameNode的HA实现

沈达

Tubi (比图科技) | Senior Data Engineer

演讲者简介：沈达，毕业于中国科学技术大学计算机系，译有《Scala实用指南》，活跃于Scala社区，Apache Spark Contributor，目前是比图科技的Senior Data Engineer。曾基于Spark Catalyst实现过适用于金融风控场景的高性能SQL引擎。

演讲议题：Data Quality Architecture in Tubi

演讲议题介绍：介绍比图科技数据团队如何保障数据质量：及时发现潜在的数据质量问题，并针对处理。介绍比图科技数据质量系统的架构：如何构建简洁、低成本、易于维护的数据质量工作流

听众收益：了解数据质量问题的成因、影响和多种解决方案，了解各种数据质量解决方案（Deequ/Apache Griffin等）的优劣，如何设计一套合理的数据质量问题“发现-处理”的工作流程。

新技术/实用技术点：通过扩展Spark SQL实现使用SQL同时在批处理和流式处理中收集Metrics

汪涉洋

车好多 | 大数据负责人

演讲者简介：汪涉洋，车好多集团（瓜子二手车母公司）大数据团队负责人，负责消息队列、大数据存储、流批计算引擎、OLAP引擎等技术在瓜子的落地。曾就职于hulu、redhat等公司，知乎专栏《大数据sre的思考》作者，在数据基础架构领域有多年从业经验。

演讲议题：结构化大数据链路在车好多的实践

演讲议题介绍：本次演讲主要介绍车好多集团围绕kafka生态搭建的大数据链路技术发展历程。从基于sqoop、flume等第一代数据链路，到第二代基于avro+kafka connect体系的第二代链路，到当下基于数据湖hudi技术在开发的第三代数据链路，会着重讲解过程中遇到的挑战，以及每一代架构的特点及局限，最后展望本领域技术的未来。

听众收益：大数据ingest技术最佳实践，以及发展历史。

新技术/实用技术点：kafka 、数据湖hudi 、avro schema注册中心

杨华

T3出行 | 大数据平台负责人

杨华：T3 出行大数据平台负责人。Apache Hudi committer & PMC member。Apache Kylin committer 及 Flink Cube 引擎作者。Apache Flink 国内早期布道者及活跃贡献者。前腾讯高级工程师，曾主导 Flink 框架在腾讯从落地到支撑日均近 20 万亿消息的处理规模。

刘金辉

T3出行 | 资深大数据工程师

刘金辉：T3 资深大数据工程师

演讲议题：基于Apache Hudi构建数据湖上低延迟CDC的实践

演讲议题介绍：T3 出行是国内首家基于车联网的网约车平台，汇聚了人、车、路、云多样化的海量数据。由于出行行业长尾的支付窗口属性，我们发现传统的Hadoop数仓已经不适合我们的体系。而Apache Hudi作为一个新兴的数据湖框架正变得越来越流行，Hudi为数据湖带来了很多优秀的特性，例如记录级的Upsert/Delete、ACID事务语义、数据与存储的版本管理、增量处理、多种数据视图等等，都是相比传统数仓的巨大突破。这些特性帮助T3解决了很多问题，其中一个很大特性就是支持关系型数据库以低延迟的CDC机制往数据湖同步数据。

听众收益：

1. Apache Hudi 介绍

2. Hudi 解决了Hive数仓哪些问题

3. Hudi 在 T3 出行低延迟数据同步管道的落地实践

4. T3出行对Hudi的改进与扩展

张亮

滴滴出行 | 高级专家工程师

演讲者简介：张亮2014年加入滴滴，主持构建过任务调度系统、监控系统、日志服务、实时计算、同步中心等平台设计与研发工作，目前在负责LogAgent、Kafka 、ElasticSearch、OLAP的引擎建设工作，具有丰富的高并发、高吞吐场景的架构设计与研发经验。

演讲议题：基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系

演讲议题介绍：滴滴开源Kafka-Manager脱胎于滴滴内部4年多的Kafka服务运营经验，服务了公司内数千Kafka用户，托管了数十Kafka集群，数万Kafka Topic，单集群>300+Broker，峰值CPU利用率>40%，面向Kafka用户、Kafka运维人员，提供了一套较完善的kafka指标体系及运维管控的能力，打造一套共享多租户kafka云平台，内部满意度达到90分！

听众收益：基于滴滴开源Kafka-Manager搭建企业级的Kafka服务运营平台

新技术/实用技术点：滴滴开源Kafka-Manager的架构与产品设计思考

论坛报名