首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Hadoop+Spark生态技术开放日

大数据分析对企业降低成本,准确掌握市场趋势,更快完成产品迭代十分有用。为此,Hadoop+Spark生态技术开放日的开启,将持续为企业和开发者们,围绕Hadoop和Spark的技术实践和行业应用,带来丰富的实战内容和经验交流。

大数据分析对企业降低成本,准确掌握市场趋势,更快完成产品迭代十分有用。为此,Hadoop+Spark生态技术开放日的开启,将持续为企业和开发者们,围绕Hadoop和Spark的技术实践和行业应用,带来丰富的实战内容和经验交流。

大数据分析对企业降低成本,准确掌握市场趋势,更快完成产品迭代十分有用。为此,Hadoop+Spark生态技术开放日的开启,将持续为企业和开发者们,围绕Hadoop和Spark的技术实践和行业应用,带来丰富的实战内容和经验交流。

大数据分析对企业降低成本,准确掌握市场趋势,更快完成产品迭代十分有用。为此,Hadoop+Spark生态技术开放日的开启,将持续为企业和开发者们,围绕Hadoop和Spark的技术实践和行业应用,带来丰富的实战内容和经验交流。

活动议程

  • 签到入场

  • 堵俊平

    腾讯云大数据基础团队负责人,腾讯T4大数据技术专家

    Apache Hadoop & Spark:社区Roadmap与腾讯云实践

  • 邵赛赛

    腾讯云专家工程师

    The Future of Spark: Spark 3.0 Overview

    "Apache Spark从诞生之初到现在已经有了9个年头,从最初的学术界新星,到工业界的宠儿,再到现在的大数据处理不二之选,Spark从底层到上层经过了多次的重构和改进,不断引领当今大数据处理的风潮。

    现如今,随着人工智能,深度学习,实时计算的普及以及广泛应用,将大数据处理从原先的简单处理推向了更快、更深度、更智能的层次,如何将大数据和人工智能更好的结合,如何在人工智能的当下进一步发展Spark,Spark又如何将面临新的挑战?

    本次演讲将从Spark的过去、现在和将来三个部分介绍Spark的历史演变,现在的架构以及未来的方向。同时着重介绍Spark未来如何与深度学习更好的融合。从本次演讲中,听众将会了解到Spark的架构演化以及未来的方向,从而对Spark有一个更好、更全面的了解。"

  • 李佳佳

    Intel大数据资深架构师

    Intel Spark SQL optimizations and the future

    Spark SQL是Spark生态系统中非常重要的组件,主要用于分布式进行结构化数据的处理,在很多领域有成功的生产实践。在本次分析中首先会简单介绍Intel大数据团队推出的Spark SQL自适应执行引擎(https://github.com/Intel-bigdata/spark-adaptive),在运行过程中通过实时收集到的信息,动态地调整后续的执行计划,包括运行时调整Join的策略,根据shuffle数据量自适应调节shuffle partition的个数,自动优化数据倾斜等优化。然后还会介绍未来我们准备在Spark SQL上实现“智能”Spark SQL引擎,在很多客户场景中,用户经常会在不同规模的数据集中重复运行同一个或类似的SQL,通过收集历史运行时的一些统计数据如join的输入输出数据量去优化下一次运行的执行,来实现如join reordering等的优化。

  • 茶歇交流

  • 孙爱旭

    高级数据工程师

    从MPP数仓迁移至Spark:案例与最佳实践分享

    本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。

  • 朱立鹏

    高级数据工程师

    从MPP数仓迁移至Spark:案例与最佳实践分享

    本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。

  • 陈怡

    腾讯云高级工程师

    Ozone:Hadoop原生对象存储

    本次主要分享Hadoop Ozone的体系结构。Ozone是由Hortonworks 在Hadoop社区发起的一个基于HDFS的对象存储服务,旨在Scaling HDFS,支持各种大小数据对象,支持更大规模的数据对象存储。 Ozone 拥有和HDFS一样的可靠性,一致性和可用性。同时,Ozone支持S3 接口,使得它不仅适用于on-premises 大数据环境,同时也是大数据上云,云端存储的一个很好的选择。

  • 自由交流&workshop

互动评论

我来说两句

0 条评论
登录 后参与评论
领券