导语:得益于调度单元是通用的SQL语句,SuperSQL能够做到与特定计算引擎解耦,也正因为此原因,SuperSQL只需专注在最优执行计划生成,并根据SQL具体类型选择最佳的计算引擎。 天穹SuperSQL是腾讯自研的跨数据源、跨数据中心、跨计算引擎的大数据SQL引擎,能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。在腾讯整个天穹大数据图谱中,负责连接端与存储。 数据源无论是关系型数据库、NoSQL还是大数据系统;数据存储无论是跨集群还是跨数据中心;数据计算无论是报表生成、分析挖掘
点击蓝字 关注我们更多咨询 天穹SuperSQL是腾讯自研、基于统一SQL语言模型、面向机器学习智能调优、提供虚拟化数据和开放式计算引擎的大数据智能融合平台。在开放融合的Data Cloud上,业务方可以消费完整的数据生命周期(采集-存储-计算-分析-洞察),还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。 目前,SuperSQL已经迈入智能计算时代,SuperSQL能够基于规则匹配(RBO)与代价估算(CBO),利用不同算法智能地为不同用户SQL挑选最合适的执行引擎,极大地优化S
导语:SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件,支持对接适配多类外部开源SQL执行引擎,如Spark、Hive等。 背景 SuperSQL是一款自研的跨数据源、跨数据中心、跨执行引擎的高性能大数据SQL中间件,满足对位于不同数据中心的不同类型数据源的数据联合分析/即时查询的需求。SuperSQL的目标是成为公司内部统一的SQL分析中间件,实现以下三点的价值: 解决业务数据孤岛,最大化数据的使用价值 执行引擎最优选择,提升业务使用数据效率 优化
导语:SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件,支持对接适配多类外部开源SQL执行引擎,如Spark、Hive等。 背景 SuperSQL是一款自研的跨数据源、跨数据中心、跨执行引擎的高性能大数据SQL中间件,满足对位于不同数据中心的不同类型数据源的数据联合分析/即时查询的需求。SuperSQL的目标是成为公司内部统一的SQL分析中间件,实现以下三点的价值: 解决业务数据孤岛,最大化数据的使用价值 执行引擎最优选择,提升业务使用数据效率
1. 数据孤岛:由于历史原因以及不同数据中心的业务差异性,众多异构数据源形成了数据孤岛,导致大量且繁重的人工数据搬迁。与此同时,由于不同国家的数据安全法限制,很多数据无法搬迁,数据安全和查询效率都难以保证
导语 SuperSQL是腾讯自研的下一代大数据自适应计算平台。通过开放融合的架构,实现一套代码高效解决公有云、私有云、内网的任何大数据计算场景问题。我们通过将异构计算引擎/异构存储服务、计算引擎的智能化/自动化、SQL的流批一体、算力感知的智能调度纳入内部系统闭环,给用户提供极简统一的大数据计算体验。用户能够从繁杂的底层技术细节中解脱出来,专注于业务逻辑的实现,像使用“数据库”一样使用“大数据”,实现业务逻辑与底层大数据技术的解耦。 SuperSQL作为腾讯大数据智能计算平台的入口和决策中心,整合不同的大数
作者 | yikonchen,腾讯大数据计算平台负责人 专家工程师 SuperSQL 是腾讯自研的下一代大数据自适应智能计算平台。通过开放融合的架构,实现一套代码高效解决公有云、私有云、内网的任何大数据计算场景问题。我们通过将异构计算引擎 / 异构存储服务、计算的智能化 / 自动化、SQL 流批一体纳入内部自适应闭环,给用户提供极简统一的大数据计算体验。用户能够从繁杂的底层技术细节中解脱出来,专注于业务逻辑的实现,像使用“数据库”一样使用“大数据”,实现业务逻辑与底层大数据技术的解耦。 SuperSQL
各位小伙伴们大家好,我们又见面啦~ 这里是《你问我答》栏目第四期 上周推送了一篇关于腾讯SuperSQL的文章 《「解耦」方能「专注」——腾讯天穹SuperSQL跨引擎计算揭秘》 很多同学对这个项目产生了浓厚的兴趣 本期,我们的专家老师将现身说法 进一步为大家介绍腾讯大数据SQL引擎天穹SuperSQL的性能表现 同时,也会解答小伙伴们关于 腾讯一站式实时计算平台Oceanus 以及分布式 HTAP 数据库管理系统Tbase 的部分疑问 对这些话题感兴趣的同学就快来看看吧! 01 @旧故里草木深:
导语 SuperSQL是腾讯天穹自研的下一代大数据自适应计算平台。通过开放融合的架构,实现一套代码高效解决公有云、私有云、内网的任何大数据计算场景问题。我们通过将异构计算引擎/异构存储服务、计算引擎的智能化/自动化、SQL的流批一体、算力感知的智能化调度纳入内部系统闭环,给用户提供极简统一的大数据计算体验。用户能够从繁杂的底层技术细节中解脱出来,专注于业务逻辑的实现,像使用“数据库”一样使用“大数据”,实现业务逻辑与底层大数据技术的解耦。 背景 在大数据生态里,不同计算引擎适合不同的计算场景,Spark适合
天穹 SuperSQL 是腾讯自研,基于统一的 SQL 语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。在开放融合的 Data Cloud 上,业务方可以消费完整的数据生命周期,从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。 Presto 在腾讯天穹 SuperSQL 大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。Presto 服务了腾讯内部的不同业务场景,包括微信支
近日,在刚刚出版的《腾讯大数据构建之道》新书中,腾讯首次对外披露了自身大数据核心技术体系架构和海量业务应用实践。作为国内大数据领域的一部前沿技术著作,该书汇集了腾讯在大数据领域几十位技术专家的思考和实战精髓,通过全面剖析自身在大数据领域的探索以及落地,为国内大数据从业者提供了一份极具价值的参考文献。 腾讯公司副总裁蒋杰表示:“从第一代的离线计算到以隐私计算、数智融合、云原生为代表的第四代大数据技术,腾讯大数据团队不断基于内部海量业务实践,打造领先的技术和产品服务内外部众多客户。未来,腾讯还将通过腾讯云持续开
天穹SuperSQL是腾讯自研,基于统一的SQL语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。在开放融合的Data Cloud上,业务方可以消费完整的数据生命周期,从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。 Presto在腾讯天穹SuperSQL大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。Presto服务了腾讯内部的不同业务场景,包括微信支付、QQ、游戏等关键业
随着《数据安全法》、《个人信息保护法》等相继出台,数据安全上升到国家安全层面和国家战略层面,数据分类分级已经成为了企业数据安全治理的必选题。然而数据分类分级的实现在行业内有很多痛点,主要体现在如下几点:
一直以来,大数据和云计算就好比是马车上的两个轮子,架着海量信息朝着安全与智能化的目标前进。如今,腾讯大数据平台已经成立十三年,数据计算量日均可达到百万亿级,如此庞大的数据计算下,技术平台架构的重要性也是不言而喻。 无论是由自研到开源的一站式海量数据集成框架—Apche Inlong、还是通用的分布式shuffle服务—Firestorm 0.2.0,亦或是大数据计算底座语言模型—腾讯SuperSql等,这些产品都见证了腾讯大数据这些年在自研之路上的成长与发展,也获得了行业内外的关注与支持。 3月7日19点,
导读|过去几年,数据湖能力已经在腾讯内部包括微信视频号、小程序等多个业务大规模落地,数据规模达到 PB至 EB 级别。在此基础上,腾讯自研业务也启动了云原生湖仓能力建设。云原生湖仓架构最大的挑战什么?腾讯云原生湖仓 DLC 从哪些方面着手解决问题?接下来由腾讯云大数据专家工程师于华丽带来相关分享。 云原生湖仓的诞生背景、价值、挑战 当前这个阶段,相信大家对于数据湖,数据仓,湖仓一系列的名词已经不算陌生了,我用最直白、最狭义方式去解释“湖仓”的话,就是数据湖跟数仓存储架构统一。 数据湖最初的需求是,要存储和
导语 文章整理了全球软件开发大会QCon《PB级数据秒级分析-腾讯云原生湖仓DLC架构揭秘》。大数据基于海量数据的分析,硬件、存储、计算资源尽量都可以用廉价的资源完成,如何在廉价资源上进行性能优化尤为重要。大数据是一种IO密集型负载,性能优化也首先着眼于IO优化。 开篇:云提供了便利的按需使用方式,最佳实践非常重要 主持人:过去几年,数据湖能力已经在腾讯内部包括微信视频号、小程序等多个业务大规模落地,数据规模达到 PB 至 EB 级别,在此基础上,腾讯自研业务也启动了云原生湖仓能力建设
作者介绍 毛宝龙 腾讯高级工程师,Alluxio PMC & Maintainer,Apache Ozone committer,腾讯 Alluxio OTeam 开源协同团队负责人。主要负责腾讯 Alluxio 的研发和落地工作和 Apache Ozone 的文件系统方向的研发工作。 DOP(Data Orchestration Platform) 是腾讯推出的数据编排平台服务。定位通用数据编排。无论是大数据和AI,无论公有云、私有云和腾讯内网都在使用统一的数据编排平台 DOP,如腾讯云DLC、EMR等产
摘要 OLAP数据库/引擎日新月异,不断推陈出新,在各种场景下有不同引擎的价值:flink擅长于实时数据集成/实时计算;spark批处理、tb级以上、hive生态、复杂join的数据分析、以及机器学习;presto联邦分析、较简单join、tb级以下hive生态udf数据分析;clickhouse 大宽表聚合操作、无数据更新、尽量无join、没有复杂udf的亚秒级分析,tensorflow深度学习等等 即使相同的引擎,考虑资源隔离、成本分摊、数仓研发/使用周期(test,adhoc,prod,backfil
11月7日,腾讯Techo开发者大会的“腾讯大数据”分论坛上,围绕大数据的新技术进展及开源生态,腾讯大数据团队进行了详细解读,包括由集群规模化与异构化挑战所引发的漂移计算等新技术创新,越来越普遍的实时计算需求以及新架构的实践,能够无限弹性扩展的、面向未来的数据湖体系结构,大数据技术发展的新趋势与新挑战等。
在11月6日召开的Techo开发者大会上,腾讯云副总裁、腾讯数据平台部总经理蒋杰博士正式对外披露腾讯大数据平台10年技术演进历程。经过10年的积累,腾讯大数据平台的算力资源池目前已有超过20万台的规模,每天实时数据计算量超过30万亿条,腾讯已经成为中国实时数据计算量最大的公司。并且,随着资源管理平台核心TKE和分布式数据库TBase正式对外开源,腾讯正在成为大数据领域开源最全面的公司。
结合 Wikipedia 和业界一些数据(仓)库产品对物化视图的定义,简单说明:物化视图是原始数据某个时刻快照的预计算结果,其中原始数据一般为表或者多张表的join,预计算过程一般是较为简单的sql查询,结果一般都会存储到新的表。可以将物化视图的生成过程抽象为Source、Transform、Sink,数据可以落地到Hdfs、Cos、Clickhouse、kudu等,用来减少数据的重复计算;另外某些场景需要在极短的时间内进行响应,如果直接查询原始数据,一般无法达到业务的需求,预计算后速度可以大大提升;在某些场景下物化视图也是数据资产,例如Cube(维度建模、kylin的概念)代表的业务模型,有时为了节省存储成本,只保留物化视图。
导读 / Introduction 数据湖解决了海量异构数据的入湖和存储需求。通过对海量数据的分析挖掘,提升对数据的洞察,助力数字化决策,进而促进业务发展,是每个企业构建数据湖的根本目的所在。随着业务迭代的不断加速,企业对数据时效性和数据分析敏捷性提出了更高的要求。为此,腾讯云推出了数据湖计算(Data Lake Compute,DLC)。DLC采用存储和计算分离的架构,结合腾讯云对象存储COS和弹性容器服务EKS,打造了一个开箱即用、弹性扩展、按量付费的交互式分析服务。 图1 DLC架构图 高性
湖仓一体(Lakehouse)是近年来比较火的大数据概念,它将数据湖(Data Lake)和数据仓库(Data Warehouse)的优势结合起来,为企业提供了更强大、更灵活的数据管理解决方案。Gartner 技术曲线的描绘中,Lakehouse是一项非常重要技术,预计还有2~5年进入平台期,国内是5~10年。
生活不可能像你想象得那么好,但也不会像你想象得那么糟。人的脆弱和坚强都超乎自己的想象。有时,我们可能脆弱得一句话就泪流满面,有时,也发现自己咬着牙走了很长的路。 本文转载自:鹅厂技术派 人们常说,腾讯因为微信,拿到了进入移动互联网时代的一张站票,但是在互联网数据像火山一样爆发的前夕,大数据何尝不是腾讯能够屹立顶级科技公司的另外一张隐性门票。 去年9月份,腾讯云对外宣布其大数据平台的算力弹性资源池达500万核,每日分析任务数达1500万,每日实时计算次数超过40万亿,能支持超过十万亿维度的数据训练
各位小伙伴们大家好,我们又见面啦~ 不知不觉 这已经是《你问我答》栏目的第三期了 前两周,我们的专家天团解答了大家许多疑问 介绍了腾讯大数据多年来在开源方面的努力成果 以及全栈机器学习平台-Angel 大数据SQL引擎-天穹SuperSQL 免费、可立即投入生产的 OpenJDK 发行版-Tencent Kona 企业级分布式 HTAP 数据库管理系统-Tbase 一站式实时计算平台-Oceanus 万亿级分布式消息中间件系统-TubeMQ …… 一系列的腾讯大数据团队自研产品的相关信息 如果能对大家
各位小伙伴们大家好,咱们又见面啦~ 《你问我答》栏目上线以后,受到了大伙的热烈欢迎 小编每天在后台收到的提问数不胜数 对于各位小伙伴的踊跃参与,小编深表感谢 就冲大家的热情 小编一定会兢兢业业地把栏目做好 帮助大伙解决各种疑难问题 但是…… 你们的方向是不是有点跑偏啊喂!!! 再次隆重介绍一下 站在你们面前的是 汇聚腾讯Apache及Linux开源社区 国内一流大数据技术专家 超40位社区committer的专家天团 每一位都在各自领域拥有顶尖的技术水平 以及丰富的实践经验 问小哥哥们的年龄也
导语 | 云原生数据湖架构以低成本优势推动客户上云,同时云上客户得以低成本撬动更多结构化和非结构化数据的价值,是一场云厂商的自我革命。本文由腾讯大数据专家工程师于华丽在 Techo TVP开发者峰会「数据的冰与火之歌——从在线数据库技术,到海量数据分析技术」的《云原生数据湖新一代数据架构》演讲分享整理而成,为大家详尽介绍云原生数据湖的价值和背景,云原生数据湖架构原则和挑战,同时分析腾讯云数据湖产品,展望腾讯云数据湖解决方案。 点击可观看精彩演讲视频 一、云原生数据湖架构的价值 今天分四个阶段来为大家
导语: 两千多年前,毕达哥拉斯学派提出来一个概念,即“万物皆数”,虽然从今天看当时的发现过程,不免有其偏颇之处。但是它揭示了,万物之间的关系,都可以归结为数与数之间的关系。 几乎在同时代,老子也有类似观点,如《道德经》所云:道生一,一生二,二生三,三生万物。内中的含义是,事物的变迁规律,是一个数据从少到多,从简单到复杂,再从复杂归于简单的一个完整过程。 这说明,人类很早就有了朴素的数据驱动思维。 只不过,在电子计算机和互联网发展起来之前,人类从来都没有办法拥有足够的数据,去发现和掌握这个世界的运作规律。
2019年4月1-2日,Flink Forward 2019 San Francisco会议在旧金山召开。Flink Forward会议邀请了来自Google, Uber, Netflix和Alibaba等公司在实时计算领域的顶尖专家和一线实践者,深入讨论了Flink社区的最新进展和发展趋势,以及Flink在业界的应用实践。随着近年来对Flink技术的广泛应用以及对Flink社区的活跃贡献,腾讯也受邀参加了会议并以主题Developing and Operating Real-Time Applications at Tencent介绍了腾讯大数据在实时计算平台建设上的工作。
导读:springboot2 项目监控服务 ,采用Micormeter度量指标库,帮助我们监控应用程序的度量指标,并将其发送到Prometheus中。监控指标有系统负载、内存使用情况、应用程序的响应时间、吞吐量、错误率等。
领取专属 10元无门槛券
手把手带您无忧上云