SuperSQL整体架构可分为四层:核心引擎层、计算层、资源层、数据编排层。...本文内容将主要围绕核心层进行展开,介绍SuperSQL的核心技术功能。 01 多SQL方言兼容 SuperSQL目标是提供统一的 SQL 入口,可灵活切换多种计算引擎。...通过SuperSQL可兼容多SQL方言,助力业务实现引擎间的透明与平滑迁移,提升查询性能。 02 多阶段混合优化器 SuperSQL与具体的计算执行解耦,更多专注在最优执行计划生成。...因此,SuperSQL扩展Implementor,以实现自定义的跨源处理。目前SuperSQL的跨源实现主要有两种方式:临时视图、动态Catalog。...方式一:临时视图 临时视图是SuperSQL最早实现的跨源方案,当时,Spark还未发布DataSource V2的多数据源处理能力,因此,SuperSQL基于Spark临时视图功能实现跨源查询。
导语:得益于调度单元是通用的SQL语句,SuperSQL能够做到与特定计算引擎解耦,也正因为此原因,SuperSQL只需专注在最优执行计划生成,并根据SQL具体类型选择最佳的计算引擎。...本文将专注于SuperSQL的计算实现,详解SuperSQL为何要实现跨计算引擎、如何实现计算引擎解耦,以及计算对接的未来工作。...此外,SuperSQL支持用户接入用户自定义的计算引擎。...考虑到整体的架构实现,SuperSQL对接入的引擎要求包括以下几点: 支持标准SQL语法并提供JDBC接口,供SuperSQL对接 能够通过JDBC/HDFS/定制适配器等方式连接到每个SuperSQL...目前SuperSQL已经服务腾讯云、音乐、游戏等业务,满足业务对跨数据源的联邦分析需求,最大化数据使用价值,助力业务发展。 作者:朱锋,腾讯大数据SuperSQL团队工程师。
SuperSQL的主要应用场景包括: OLAP数据分析 - 通过SuperSQL对数据分析/挖掘、生成报表等 数据即时查询 - 通过SuperSQL对数据采样、小数据交互式查询等 数据联邦查询 - 通过...SuperSQL联合分析不同数据源(例如Hive、HBase)中的数据 割裂的数据版本 - 通过SuperSQL查询不同集群中部署的不同数据源版本中的数据 跨数据中心查询 - 通过SuperSQL查询多个数据中心中的数据...进行对比,只要有一方能成功执行SQL得到结果,即产生对比; 有效对比组数:和对比组数的区别在于,只有SuperSQL和Spark JDBC双方均能拿到测试结果,才产生对比; 更快方式:对比SuperSQL...通过参数优化等方式解决测试中发现的少量SuperSQL查询执行缓慢问题,目前100%TPC-DS测试用例SQL在SuperSql的执行时间可实现远低于或持平Spark JDBC。...SuperSQL性能测试后续将持续进行并获取新的结果,同时在后续版本中针对性能测试发现的问题持续优化,进一步提升SuperSQL的可用性与稳定性。
SuperSQL的主要应用场景包括: OLAP数据分析 - 通过SuperSQL对数据分析/挖掘、生成报表等 数据即时查询 - 通过SuperSQL对数据采样、小数据交互式查询等 数据联邦查询 - 通过...SuperSQL联合分析不同数据源(例如Hive、HBase)中的数据 割裂的数据版本 - 通过SuperSQL查询不同集群中部署的不同数据源版本中的数据 跨数据中心查询 - 通过SuperSQL查询多个数据中心中的数据...:对比SuperSQL和Spark JDBC的99条SQL的平均时间,耗时短的更快; 性能提升:Spark JDBC的平均执行时间除以SuperSQL的平均执行时间,表示SuperSQL相比Spark基线查询响应时间降低的倍数...通过参数优化等方式解决测试中发现的少量SuperSQL查询执行缓慢问题,目前100%TPC-DS测试用例SQL在SuperSql的执行时间可实现远低于或持平Spark JDBC。...SuperSQL性能测试后续将持续进行并获取新的结果,同时在后续版本中针对性能测试发现的问题持续优化,进一步提升SuperSQL的可用性与稳定性。
目前,SuperSQL已经迈入智能计算时代,SuperSQL能够基于规则匹配(RBO)与代价估算(CBO),利用不同算法智能地为不同用户SQL挑选最合适的执行引擎,极大地优化SQL执行效率与大幅度降低失败计算带来的资源浪费...SQL执行需求,这也是SuperSQL设计之初引入多引擎对接框架的初衷。...针对这一瓶颈,SuperSQL V3.x版本新增实现了智能计算提效的优化,覆盖了SuperSQL对接的Presto、Spark与Hive MR计算引擎。...SuperSQL的整体系统架构与技术沙盘如上图,其中计算提效主要涉及的功能点高亮显示,具体包括: 1.语法兼容:为实现计算提效的用户透明性,SuperSQL扩展了其支持的SQL语法(Parser/Validator...用户之前在IDEX、US等上层业务平台上保存的、以TDW语法书写、提交THive执行的SQL脚本,可以不用修改直接通过SuperSQL转发Presto执行,语法改写和适配由SuperSQL来完成。
各位小伙伴们大家好,我们又见面啦~ 这里是《你问我答》栏目第四期 上周推送了一篇关于腾讯SuperSQL的文章 《「解耦」方能「专注」——腾讯天穹SuperSQL跨引擎计算揭秘》 很多同学对这个项目产生了浓厚的兴趣...01 @旧故里草木深: supersql的性能怎么样,有测试数据吗? 张韶全 腾讯大数据SuperSQL和Hive项目负责人,香港中文大学博士,《SparkSQL内核剖析》作者之一。...回答 我们评估了在100GB的TPC-DS数据集之上,SuperSQL V0.1版本与社区SparkSQL JDBC性能对比。...从上图可以看到,在Hive数据源下,SuperSQL执行TPC-DS SQL的平均执行时间仅为1.15min,而Spark JDBC则需要31.27min,SuperSQL较Spark JDBC性能提升了约...相比于 Spark JDBC,上图展示的SuperSQL的性能优势主要来自于完善的算子下推的能力,将计算下推到数据源计算的同时,大大减少数据的拉取。现在SuperSQL可以做到60+算子的下推。
作者 | yikonchen,腾讯大数据计算平台负责人 专家工程师 SuperSQL 是腾讯自研的下一代大数据自适应智能计算平台。...任意解析器得到的语法树均将转换为 SuperSQL 统一的逻辑计划,SuperSQL 可基于此逻辑计划生成符合不同引擎或数据源方言语法的执行语句(这一过程即 SQL 转换)。...2.SQL 转换:SQL 转换发生在两个阶段,一阶段是通过解析器得到抽象语法树后,进行语法树重写以确保该语法树能转换为 SuperSQL 统一逻辑计划;另一阶段是基于 SuperSQL 统一逻辑计划与不同引擎或者数据源语法之间的等价映射关系...SuperSQL 依赖外部的统一元数据服务,固化缓存 HBO 索引宽表来解决检索的实时性能问题。...作为业务效果样例,根据对接 SuperSQL 的某数据分析中台的 SQL 流水统计,HBO 加持的 SuperSQL 智能引擎选择,可以大幅减少因为引擎选择错误导致的 SQL failover。
天穹SuperSQL是腾讯自研,基于统一的SQL语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。...Presto在腾讯天穹SuperSQL大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。...1 天穹Presto整体架构 天穹Presto作为天穹SuperSQL的主要执行引擎之一,主要承担着加速用户SQL执行速度的角色。...SuperSQL通过智能路由(RBO/CBO/HBO)的方式,智能筛选出合适的SQL并分发给Presto执行,以加速SQL计算。...关于天穹SuperSQL的介绍,可以查看历史文章:「解耦」方能「专注」——腾讯天穹SuperSQL跨引擎计算揭秘 天穹Presto采用了on K8s容器化部署的方式,具备自动化运维、弹性伸缩等云原生能力
导语 SuperSQL是腾讯自研的下一代大数据自适应计算平台。通过开放融合的架构,实现一套代码高效解决公有云、私有云、内网的任何大数据计算场景问题。...任意解析器得到的语法树均将转换为SuperSQL统一的逻辑计划,SuperSQL可基于此逻辑计划生成符合不同引擎或数据源方言语法的执行语句(这一过程即SQL转换)。...SQL转换:SQL转换发生在两个阶段,一阶段是通过解析器得到抽象语法树后,进行语法树重写以确保该语法树能转换为SuperSQL统一逻辑计划;另一阶段是基于SuperSQL统一逻辑计划与不同引擎或者数据源语法之间的等价映射关系...SuperSQL依赖外部的统一元数据服务,固化缓存HBO索引宽表来解决检索的实时性能问题。...作为业务效果样例,根据对接SuperSQL的某数据分析中台的SQL流水统计,HBO加持的SuperSQL智能引擎选择,可以大幅减少因为引擎选择错误导致的SQL failver。
导语 SuperSQL是腾讯天穹自研的下一代大数据自适应计算平台。通过开放融合的架构,实现一套代码高效解决公有云、私有云、内网的任何大数据计算场景问题。...智能计算引擎选择是SuperSQL的核心特性之一,目前已经覆盖天穹的所有SQL,达到千万级别。...通过SuperSQL的AI决策中心,我们基于RBO + CBO + HBO组合的引擎选择算法,自动为用户SQL挑选合适的计算引擎。...引擎失败的资源浪费:当现网SQL提交到SuperSQL,SuperSQL根据规则判断SQL是否优先使用Presto进行计算,如果Presto失败后,SuperSQL会自动failover其它计算引擎执行...总结 SuperSQL升级已有的引擎自适应算法到基于n-gram TF-IDF + XGBoost组合的机器学习算法。
内容覆盖了大数据接入、计算、存储、分析、调度等大量技术组件的整体架构和应用展示,当中不乏数据实时采集TDBank、下一代大数据分布式存储Ozone、高性能的大数据SQL引擎SuperSQL、自主研发的高性能分布式机器学习平台...以分布式计算为例,书中详细介绍了SuperSQL的关键技术,以及在OLAP 数据分析、跨数据中心查询优化等多个场景中的应用细节。...作为腾讯大数据自研的跨数据源、跨数据中心、跨计算引擎的的高性能大数据SQL引擎,SuperSQL致力于优化集群资源的使用,提升使用业务数据的效率,并帮助解决业务数据孤岛问题。...目前,SuperSQL 在腾讯内网及外部客户均已部署使用。...图:腾讯SuperSQL系统架构 在第二部分,大数据团队主要介绍了腾讯在数据治理、数据应用、机器学习等方面的建设经验,并对腾讯大数据产品及其在内外部场景的实践落地进行了解读。
天穹 SuperSQL 是腾讯自研,基于统一的 SQL 语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。...Presto 在腾讯天穹 SuperSQL 大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。...SuperSQL 通过智能路由(RBO/CBO/HBO)的方式,智能筛选出合适的 SQL 并分发给 Presto 执行,以加速 SQL 计算。...关于天穹 SuperSQL 的介绍,可以查看历史文章:「解耦」方能「专注」——腾讯天穹 SuperSQL 跨引擎计算揭秘 天穹 Presto 采用了 on K8s 容器化部署的方式,具备自动化运维、弹性伸缩等云原生能力...联系我们 如果你对 SuperSQL 感兴趣,欢迎联系我们探讨技术。同时我们长期欢迎志同道合的大数据人才加入,欢迎咨询。
大数据计算引擎对 计算引擎 JDBC访问 可维护性 性能 SuperSQL 支持DQL 1. Jar包引入,Java本地开发 2. 本地编译部署,快速试错 1. 融合计算引擎,智能提效 2....经典计算引擎,执行速度高 通过表格对比,由于SuperSQL代码维护成本低,且数据扫描场景比较简单,更看重维护性,因此选择SuperSQL。....通过性能测试,SuperSQL单表访问平均延迟10秒左右,对于单表需要获取元数据信息和200条数据。...通过100个线程访问SuperSQL,那么一天的扫描量为: ((24 * 3600s) / (10s + 10s) )* 100 = 432000 然后实际运行,一天扫描量在20万至30万之间。...image.png 注:天穹SuperSQL介绍参考 【天穹】SuperSQL跨引擎计算揭秘 腾讯云实例账号注册 实例账号注册流程 image.png 实例账号筛查流程 账号筛查需要综合处理实例的信息
无论是由自研到开源的一站式海量数据集成框架—Apche Inlong、还是通用的分布式shuffle服务—Firestorm 0.2.0,亦或是大数据计算底座语言模型—腾讯SuperSql等,这些产品都见证了腾讯大数据这些年在自研之路上的成长与发展
降低使用复杂度,DLC 集成了腾讯自研 SuperSQL,去实现统一函数和语法来去两个引擎无缝切换。...入到明细表之后,开启明细表背后的一些优化,用 DLC SuperSQL—Spark,进行清洗、合并小文件、以及稀疏索引构建等,最后达到的效果直接用 DLC SuperSQL-Presto 去做秒级分析
例如右边图的presto的local cache就不会引入alluxio cluster,spark这儿不引入rss服务而是轻量简单的shuffle manager等等; 降低使用复杂度,DLC集成了腾讯自研supersql...入到明细表之后,开启明细表背后的一些优化,用DLC supersql—spark,进行清洗、合并小文件、以及稀疏索引构建等,最后达到的效果直接用DCL supersql-presto 去做秒级的分析,
https://www.infoq.cn/article/KFQqjM9hsZb1qCZARDok 助力 FiT 业务显著提升查询性能 腾讯 Alluxio 团队与 CDG 数据团队,TEG supersql...https://zhuanlan.zhihu.com/p/270737380 助力 Supersql 查询性能提速 2.6 倍。 ...Supersql是跨数据源、跨数据中心、跨执行引擎的高性能、安全的大数据SQL引擎。Alluxio 和 Presto 混合部署,TPC-DS测试,引入 Alluxio 的平均加速比 2.6。...目前 Supersql 搭配 Alluxio 的方案广泛应用于大数据查询场景。
由于腾讯20万台弹性资源池的机器分布在多个数据中心,不同地区甚至是不同国家,为了降低数据使用壁垒,去年自研了漂移计算引擎SuperSQL,作为统一的数据分析入口,通过智能CBO优化器,将计算下推到分布在各地的异构数据源
oceanus、DLC spark)、AI(Tione、EMR spark、DLC spark)、mpp分析(EMR ck/doris CDW ck/doris/pg DLC presto/spark/supersql...元数据主存tdsql,各个服务的多租户支持和隔离,作为一个用户免运维,服务轻运维的全托管saas产品 具体来看我们在统一接入层服务提供云api,jdbc,hmsclient等对外服务; SQL入口是腾讯的supersql
随着系统演进和数据增长,异构集群、异构数据源问题凸显,为了降低数据使用壁垒,漂移计算平台研发负责人张韶全博士表示:“腾讯大数据去年自研了漂移计算引擎SuperSQL,满足跨地区、跨集群、跨数据源的联邦数据需求
领取专属 10元无门槛券
手把手带您无忧上云