Hadoop+Spark生态技术开放日

文章/答案/技术大牛

发布

大数据

大数据分析对企业降低成本，准确掌握市场趋势，更快完成产品迭代十分有用。为此，Hadoop+Spark生态技术开放日的开启，将持续为企业和开发者们，围绕Hadoop和Spark的技术实践和行业应用，带来丰富的实战内容和经验交流。

展开

2019-03-24 周日 13:00-18:00
COCOSPACE漕河泾创新中心（上海市徐汇区田林路200号C座1楼）

活动议程

13:00
签到入场
13:30
堵俊平
腾讯云大数据基础团队负责人，腾讯T4大数据技术专家
Apache Hadoop & Spark：社区Roadmap与腾讯云实践
13:50
邵赛赛
腾讯云专家工程师
The Future of Spark: Spark 3.0 Overview
"Apache Spark从诞生之初到现在已经有了9个年头，从最初的学术界新星，到工业界的宠儿，再到现在的大数据处理不二之选，Spark从底层到上层经过了多次的重构和改进，不断引领当今大数据处理的风潮。
现如今，随着人工智能，深度学习，实时计算的普及以及广泛应用，将大数据处理从原先的简单处理推向了更快、更深度、更智能的层次，如何将大数据和人工智能更好的结合，如何在人工智能的当下进一步发展Spark，Spark又如何将面临新的挑战?
本次演讲将从Spark的过去、现在和将来三个部分介绍Spark的历史演变，现在的架构以及未来的方向。同时着重介绍Spark未来如何与深度学习更好的融合。从本次演讲中，听众将会了解到Spark的架构演化以及未来的方向，从而对Spark有一个更好、更全面的了解。"
14:30
李佳佳
Intel大数据资深架构师
Intel Spark SQL optimizations and the future
Spark SQL是Spark生态系统中非常重要的组件，主要用于分布式进行结构化数据的处理，在很多领域有成功的生产实践。在本次分析中首先会简单介绍Intel大数据团队推出的Spark SQL自适应执行引擎，在运行过程中通过实时收集到的信息，动态地调整后续的执行计划，包括运行时调整Join的策略，根据shuffle数据量自适应调节shuffle partition的个数，自动优化数据倾斜等优化。然后还会介绍未来我们准备在Spark SQL上实现“智能”Spark SQL引擎，在很多客户场景中，用户经常会在不同规模的数据集中重复运行同一个或类似的SQL，通过收集历史运行时的一些统计数据如join的输入输出数据量去优化下一次运行的执行，来实现如join reordering等的优化。
15:10
茶歇交流
15:40
孙爱旭
高级数据工程师
从MPP数仓迁移至Spark：案例与最佳实践分享
本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中，我们遇到了很多的预料之外的问题，如字符集问题，数字进位问题，各种OOM等等，更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中，我们做了很多的实践，贡献给了社区很多的反馈，也解决了很多的bug。即便对于Spark当前不能处理的场景，比如recurisve query，也有了一些可行的探索。此外，我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中，我们会深入迁移的关键步骤，并分享踩过的一些坑，最后会介绍我们的自动化工具，如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。
15:40
朱立鹏
高级数据工程师
从MPP数仓迁移至Spark：案例与最佳实践分享
本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中，我们遇到了很多的预料之外的问题，如字符集问题，数字进位问题，各种OOM等等，更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中，我们做了很多的实践，贡献给了社区很多的反馈，也解决了很多的bug。即便对于Spark当前不能处理的场景，比如recurisve query，也有了一些可行的探索。此外，我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中，我们会深入迁移的关键步骤，并分享踩过的一些坑，最后会介绍我们的自动化工具，如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。
16:20
陈怡
腾讯云高级工程师
Ozone：Hadoop原生对象存储
本次主要分享Hadoop Ozone的体系结构。Ozone是由Hortonworks 在Hadoop社区发起的一个基于HDFS的对象存储服务，旨在Scaling HDFS，支持各种大小数据对象，支持更大规模的数据对象存储。 Ozone 拥有和HDFS一样的可靠性，一致性和可用性。同时，Ozone支持S3 接口，使得它不仅适用于on-premises 大数据环境，同时也是大数据上云，云端存储的一个很好的选择。
17:00
自由交流&workshop

活动地址

2019-03-24 周日 13:00-18:00
COCOSPACE漕河泾创新中心（上海市徐汇区田林路200号C座1楼）

活动方

主办方

腾讯云市场部
腾讯云市场部

互动评论

我来说两句

0 条评论

登录后参与评论

Hadoop+Spark生态技术开放日

Hadoop+Spark生态技术开放日

活动议程

签到入场

堵俊平

Apache Hadoop & Spark：社区Roadmap与腾讯云实践

邵赛赛

The Future of Spark: Spark 3.0 Overview

李佳佳

Intel Spark SQL optimizations and the future

茶歇交流

孙爱旭

从MPP数仓迁移至Spark：案例与最佳实践分享

朱立鹏

从MPP数仓迁移至Spark：案例与最佳实践分享

陈怡

Ozone：Hadoop原生对象存储

自由交流&workshop

活动地址

活动方

主办方

腾讯云市场部

相关活动

云端技术课堂：《游戏开发的超“音”“速”》

K8s&云原生技术开放日（深圳站）

开放银行数字化转型论坛

2019湖北省现代服务业云计算大数据研讨会

互动评论

我来说两句

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐