学习
实践
活动
专区
工具
TVP
写文章

构建技术中台——基于SQL的一体化ETL

本文介绍了 SparkSQL 和 Flink 对于流支持的特性以及一体化支持框架的难点。在介绍一体化实现的同时,重点分析了基于普元 SparkSQL-Flow 框架对流支持的一种实现方式。 目录: 1.SparkSQL 和 Flink 对于流支持的特性介绍 2.基于SparkSQL-Flow的批量分析框架 3.基于SparkStreaming SQL模式的流式处理支持 4.对于一体化 是流的特例 还是 流是的特例? ? 1.从的角度看,流是多个批次一份一份的进行。 四、对于一体化ETL的思考 Kettle ETL 工具 提到 ETL 不得不提 Kettle。、流、数据源、多样性 大多数设计的ETL工具在他面前都相形见绌。 ? SparkSQL-Flow 是基于Spark架构,天生具有分布式、本地计算、完全SQL开发的一体化计算框架。

1.3K30
  • 广告
    关闭

    【限时特惠】腾讯云大数据产品,爆品秒杀1折起!

    移动推送、BI、云数仓Doris、ES、数据湖DLC、WeData、流计算Oceanus,多款产品助您高效挖掘数据潜力,提升数据生产力!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Flink Forward Asia 2020干货总结!

    特别对于流一体,今年发布的三个版本(Flink-1.10 & 1.11 & 1.12)对流一体进一步作了升级和完善,并首次在阿里巴巴双十一最核心的天猫营销活动分析屏场景中落地 [1]。 第三个的方向是与 AI 的融合。莫问老师从语言层,算法层和大数据与 AI 一体化流程管理这三个方面总结了 2020 年 Flink 在 AI 融合方面的进展。 大数据与 AI 一体化流程管理也是一个很值得深入探讨的问题,其背后的本质问题是在离线学习实时化的背景下,如何设计离线在线机器学习一体化的流程管理架构,以及该架构如何与大数据工作流程相结合,实现大数据与机器学习全链路一体化的问题 2020 年,Flink 迎来了实时离线流一体的新纪元 –– 首次在双十一最核心场景天猫营销活动分析屏场景中落地,并带来了巨大的收益:实时和离线逻辑业务的一体化使得数据结果天然保持一致;同时使得业务开发效率提升了 对于未来的规划,赵健博老师老师表示会推动 Flink 的流一体在快手内部落地,并结合 Flink 的流一体推动 AI 数据流实时化以提升训练模型的迭代速度。

    73131

    腾讯云 Serverless 衔接 Kafka 上下游数据流转实战

    它 100% 兼容开源的 Kafka API,目前主要支持开源的 0.9, 0.10, 1.1.1, 2.4.2 四个版本,并提供向下兼容的能力。 此时关于 Container 的并发度是由系统自动调度,自动计算的,当 Kafka 的源数据多的时候,并发量就,当数据少的时候,相应的就会较少并发数。 在非实时的数据流转场景中,Serverless Function 相对现有的开源方案 ,它具有的优势几乎是压倒性的。从功能和性能的角度,它在式计算(非实时)的场景中是完全可以满足的。 在使用者看来,式处理可以提供精确的式数据视图,流式处理可以提供近实时的数据视图。而在式处理当中,或者说在未来的式处理和流式处理的底层技术的合流过程中,Lambda 架构是其发展的必然路径。 Serverless Function 以其按需使用,自动扩缩容及近乎无限的横向扩容能力给现阶段的式处理提供了一种选择,并且在未来一体化的过程中,未来可期。 ?

    53063

    直播回顾 | 腾讯云 Serverless 衔接 Kafka 上下游数据流转实战

    它 100% 兼容开源的 Kafka API,目前主要支持开源的 0.9, 0.10, 1.1.1, 2.4.2 四个版本,并提供向下兼容的能力。 此时关于 Container 的并发度是由系统自动调度,自动计算的,当 Kafka 的源数据多的时候,并发量就,当数据少的时候,相应的就会较少并发数。 在非实时的数据流转场景中,Serverless Function 相对现有的开源方案 ,它具有的优势几乎是压倒性的。从功能和性能的角度,它在式计算(非实时)的场景中是完全可以满足的。 在使用者看来,式处理可以提供精确的式数据视图,流式处理可以提供近实时的数据视图。而在式处理当中,或者说在未来的式处理和流式处理的底层技术的合流过程中,Lambda 架构是其发展的必然路径。 Serverless Function 以其按需使用,自动扩缩容及近乎无限的横向扩容能力给现阶段的式处理提供了一种选择,并且在未来一体化的过程中,未来可期。

    8210

    腾讯云 Serverless 衔接 Kafka 上下游数据流转实战

    它 100% 兼容开源的 Kafka API,目前主要支持开源的 0.9, 0.10, 1.1.1, 2.4.2 四个版本,并提供向下兼容的能力。 此时关于 Container 的并发度是由系统自动调度,自动计算的,当 Kafka 的源数据多的时候,并发量就,当数据少的时候,相应的就会较少并发数。 在非实时的数据流转场景中,Serverless Function 相对现有的开源方案 ,它具有的优势几乎是压倒性的。从功能和性能的角度,它在式计算(非实时)的场景中是完全可以满足的。 在使用者看来,式处理可以提供精确的式数据视图,流式处理可以提供近实时的数据视图。而在式处理当中,或者说在未来的式处理和流式处理的底层技术的合流过程中,Lambda 架构是其发展的必然路径。 Serverless Function 以其按需使用,自动扩缩容及近乎无限的横向扩容能力给现阶段的式处理提供了一种选择,并且在未来一体化的过程中,未来可期。 ?

    31420

    我的软考之路(八)——三原则学会数据流

    设计原则 我们重点研究数据流图的三设计原则,这三设计原则是解题的法宝。 1.外部实体与外部实体之间不存在数据流 ? 2.外部实体与数据存储之间不存在数据流 ? 3.数据存储与数据存储之间不存在数据流 ? 数据流经过加工之后,数据流的关系,如图: ? 数据字典 数据流图描述了系统的分解。但没有对图中各成分进行说明。 我们先分析一下,无非就是那三原则:根据这些原则,DF2违背了数据守恒原则,外部实体与外部实体之间不存在数据流,DF6违背了数据守恒原则,外部实体与数据存储之间不存在数据流,DF7违背了数据守恒原则,数据存储与数据存储之间不存在数据流 总结 数据流图题,相对而言还是很简单,只要记得三原则,相信你没有问题,最后祝大家明天考试顺利,取得优异的成绩。

    75410

    浅谈大数据数仓

    数仓分类 数仓分为实时数仓,离线数仓,实时离线一体化。 实时数仓就是对数据的实时性要求比较高,所以是即时运算的,它的数据来源和离线是一样的,数据出来后,一条走了实时,一条走了离线(Lambda架构),相比于离线数仓,实时数仓的难度就要大得多,因为离线数仓的数据是全量数据,所以对数据的计算是计算 在业务场景上,比如屏分析,需要实时地对数据进行处理后展示,还有一些下游服务需要使用这些数据。 实时离线一体化 在上面的架构图中,实时和离线走了两条链路,所以需要维护两套代码,开发成本就会变大,但是好处是比较稳,也是大部分企业所采用的,数仓一体化就是实时和离线走一条链路,只需要维护一套代码即可,但是难度比较大 总结 上面只是简单地介绍了数仓的一些基本知识,数仓的分类,数据来源和数据流向,能够对数仓从整体上有一个认识,并没有从数仓的建模,技术等方面去说,后续再从数仓的各个组件和技术框架去说。

    22620

    信创生态迎数据挑战,全域数据管控成趋势

    第二,端到端应用场景落地 众所周知,苹果和谷歌安卓的获成功,建立在广泛的生态系统基础之上。 第三,数据流动解锁,无业务中断 数据驱动时代,数据的自由流动关乎着数据价值能否有效挖掘。 这当中,数据的类型包括结构化数据和非结构化数据,数据流动的路径则包括从X86生态到信创生态,以及信创生态内部之间。 03 跨生态的数据生命周期管理:可以在一个集群内实现跨生态的数据统一管理、数据流动、数据在线迁移。 04 结语 TITTLES 在当前的经济社会环境之下,信创产业已经远不能满足于从0到1、从无到有的改变,恰恰需要的是从1到10的一诸如XSKY这样“优等生”的集体冒尖,才有可能从全局上,而不仅是止步于党政军领域

    54640

    首届AI本科课程曝光:周志华为第一00后,准备了剂量烧脑数学

    这也意味着,正在军训中的第一00后们,即将开始接受首次从0起步的专业人工智能本科教育。 如今,这个南京大学人工智能学院第一本科生已经入学,总计80人。其中有70人从高考填报志愿的考生中选出,10人通过学校综合评价选出。 据透露,这本科生的质量非常好,有很多的高分考生主动报考。 今年5月,俞扬入选IEEE Intelligent Systems 发布的2018年度“人工智能10新星” ,他也被称为南京大学人工智能学院的骨干教师。 ? One More Thing 其实,今年开始接触人工智能课程的00后,不止这大一新生。 这个9月开始执行的高中新课标里,也纳入了人工智能、大数据处理等课程。

    63180

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 云呼叫中心

      云呼叫中心

      云呼叫中心(CCC)为您提供便捷的互动式呼叫中心管理服务。只需对接 API 接口,您就可以在云端使用传统的呼叫中心能力来实现您的呼叫管理需求。使用 云呼叫中心可以极大降低您的软硬件采购成本,简化客服和营销系统开发工作。

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注腾讯云开发者

      领取腾讯云代金券