首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

优秀的数据工程师,怎么用 Spark 在 TiDB 上做 OLAP 分析

作者:RickyHuo 本文转载自公众号「大道至简bigdata」 原文链接:优秀的数据工程师,怎么用 Spark 在 TiDB 上做 OLAP 分析 TiDB 是一款定位于在线事务处理/在线分析处理的融合型数据库产品...,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。...TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品。它借助 Spark 平台,同时融合 TiKV 分布式集群的优势。...直接使用 TiSpark 完成 OLAP 操作需要了解 Spark,还需要一些开发工作。那么,有没有一些开箱即用的工具能帮我们更快速地使用 TiSpark 在 TiDB 上完成 OLAP 分析呢?...目前开源社区上有一款工具 Waterdrop,可以基于 Spark,在 TiSpark 的基础上快速实现 TiDB 数据读取和 OLAP 分析。

90730
您找到你想要的搜索结果了吗?
是的
没有找到

OLAP引擎

时序型数据的实时OLAP分析:a.明细数据产生速率快b.原始数据量大,以简单(sum/count/min/max)为主,c.去重指标不多(1~2个)doris1、运维成本低,无外部依赖,部署简单。...多维过滤场景下性能较低2、同时负责数据导入, compaction, 查询, 这些操作之间会相互影响基于MPP高性能计算,提供灵活高的分析(主要依靠现场计算):a.明细查询b.主键更新的场景c.百毫秒的高性能灵活d.OLAP...二、行业情况调研公司业务特点引擎使用阿里查询场景丰富、规模大、服务内部也对外提供云服务自研OLAP引擎为主、基于MPP架构和自研存储系统支持需求闭源。...典型系统:Doris腾讯查询场景丰富、大业务线有自己的OLAP团队;开源和自研OLAP都有不同业务线采用、典型系统:Clickhouse、PivotEngine(广点通自研OLAP引擎)头条查询场景集中

62350

TiDB 论文有感 | 数据强一致性且资源隔离的 HTAP 数据库

OLAP 类型的请求开始力不从心,更坏的情况可能还会影响到 OLTP 类型的请求,所以针对 OLAP 场景设计了更符合其工作负载的 OLAP 类型数据库,通过将 OLTP 类型的数据同步到 OLAP...论文中,TiDB 选择的是方案 2,针对 OLTP 工作负载提供一个行存引擎 TiKV,针对 OLAP 工作负载负载提供一个列存引擎 TiFlash,那么数据强一致性和资源相互隔离怎么解决呢?...HTAP or (OLTP and OLAP) 到这里,TiDB 有了两个存储引擎:对 OLTP 友好的行存 TiKV,对 OLAP 友好的列存 TiFlash,其实这个不关键,关键的是这个两个存储引擎的数据同步是强一致性的...从单集群 TiDB 的角度来看,数据强一致性但资源相互隔离的 HTAP 是一个非常高效的能力,省去了数据从 OLTP 数据库同步到 OLAP 数据库的过程,也省去了将 OLAP 数据库计算结果需要提供在线业务使用时...不可能将整个公司的所有数据都放入一个 TiDB 集群中,那么虽然 TiDB 提供了 OLAP 能力,但是如果需要做 AP 操作的数据分布在多个集群中,这样依然需要将多个集群的数据从外部同步到一个提供 OLAP

97541

别再分库分表了,来试试它吧!

社区版和企业版 TIDB核心特性 水平弹性扩展 分布式事务支持 金融级高可用 实时 HTAP 云原生的分布式数据库 高度兼容 MySQL OLTP&OLAP(自学) OLTP(联机事务处理) OLAP(...实时 HTAP TiDB 作为典型的 OLTP 行存数据库,同时兼具强大的 OLAP 性能,配合 TiSpark,可提供一站式 HTAP 解决方案,一份存储同时处理 OLTP & OLAP 无需传统繁琐的...TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景,更复杂的 OLAP 分析可以通过 TiSpark 项目来完成。...TiDB 集群主要包括三个核心组件:TiDB Server,PD Server 和 TiKV Server,此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件。...至此,TiDB 可以通过一套系统,同时支持 OLTP 与 OLAP,免除用户数据同步的烦恼。 TiFlash TiFlash 是一类特殊的存储节点。

32420

TiDB学习笔记(三)

and Analytical Process,混合事务和分析处理) 同时支持OLTP 和OLAP,支持实时分析。...TiDB-serer最大程序下推算法与Hash/Join关键算子提供了基础的AP能力 TiDB可以比喻成一个大号的Mysql, 最早TiDB是为了解决在线业务的分库分表问题,由于以下特性: 1....借助生态,让spark跑在Tikv上 但是TiDB的最初定位是面向OLTP的系统,针对OLAP,很容易造成OOM,所以引入了spark,分装为Ti-spark,缓解了数据中台算力的问题。...4.行列混合引擎,列式引擎提供实时写入能力 这时候OLTP的查询和TIspark用的同一套底层存储TiKv,OLTP和OLAP的资源在软件层面上很难实现隔离 物理隔离是最好的资源隔离 列存天然对OLAP...6.TiDB-servert统一技术服务 7.Mpp解决计算节点的扩展与并行计算 OLAP的场景里,经常会出现大表关联,之前的架构中join是无法下推的,引入了MPP计算框架 TiDB关键技术创新

1.1K41

别再分库分表了,试试TiDB

实时 HTAP TiDB 作为典型的 OLTP 行存数据库,同时兼具强大的 OLAP 性能,配合 TiSpark,可提供一站式 HTAP 解决方案,一份存储同时处理 OLTP & OLAP 无需传统繁琐的...TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景,更复杂的 OLAP 分析可以通过 TiSpark 项目来完成。...TiDB 集群主要包括三个核心组件:TiDB Server,PD Server 和 TiKV Server,此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件。...TiSpark TiSpark 作为 TiDB 中解决用户复杂 OLAP 需求的主要组件,将 Spark SQL 直接运行在 TiDB 存储层上,同时融合 TiKV 分布式集群的优势,并融入大数据社区生态...至此,TiDB 可以通过一套系统,同时支持 OLTP 与 OLAP,免除用户数据同步的烦恼。 TiFlash TiFlash 是一类特殊的存储节点。

56710

易观 OLAP 大赛揭晓 PingCAP 斩获商业组桂冠

[1509352844507_8075_1509352846303.jpg] PingCAP 作为本次算法大赛商业组参赛队,借助 TiDB 的算法引擎,展现了强大的复杂 OLAP 处理能力。...作为 PingCAP 的核心产品 TiDB 受 Google/F1 启发,具备强大的水平扩展,强一致性的多副本数据安全,分布式事务,实时 OLAP 等特性。...作为 TiDB 项目中针对解决用户复杂 OLAP 需求的重要组件,TiSpark 将 Spark SQL 直接运行在 TiDB 存储层上,同时融合 TiKV 分布式集群的优势,并融入大数据社区生态。...至此,TiDB 可以通过一套系统,同时支持 OLTP 与 OLAP,免除用户数据同步烦恼。...TiDB 融合了 OLTP 与 OLAP 能力,将数据价值最大化,通过技术创新研发,为市场提供更好的技术解决方案,希望能够降低实时数据分析行业的门槛。

1.2K00

OLAP vs OLTP

OLAP定义 OLAP 是 Online Analytical Processing system 的简称,是一个联机分析处理系统,主要目标是数据分析而不是数据处理。...OLAP 数据库存储的是 OLTP 输入的历史数据。可以允许用户查看不同纬度的数据。使用 OLAP,我们可以从大型数据库中提取信息并进行分析来做决策。...OLAP 还允许用户执行复杂的查询以提取多维数据。在 OLAP 中,即使事务在中间过程中失败,也不会损害数据完整性,因为用户使用 OLAP 系统只是从大型数据库中检索数据进行分析。...OLAP 中的事务很长,因此需要花费更多的时间以及更大的空间。与 OLTP 相比,OLAP 中的事务较少。甚至 OLAP 数据库中的表也可能不规范。...参考:Difference Between OLTP and OLAP

1.7K20

猿创征文|一文带你了解国产TiDB数据库

实时 HTAP TiDB 作为典型的 OLTP 行存数据库,同时兼具强大的 OLAP 性能,配合 TiSpark,可提供一站式 HTAP 解决方案,一份存储同时处理 OLTP & OLAP 无需传统繁琐的...TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景,更复杂的 OLAP 分析可以通过 TiSpark 项目来完成。...OLAP(联机分析处理) OLAP(Online Analytical Processing) 即联机分析处理,是数据仓库的核心部心,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。...TiDB 集群主要包括三个核心组件:TiDB Server,PD Server 和 TiKV Server,此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件。 ​...TPC-H 是数据分析领域的一个测试集,TiDB 2.0 在 OLAP 场景下的性能有了大幅提升,原来只能在数据仓库里面跑的一些复杂的 Query,在 TiDB 2.0 里面跑,时间基本都能控制在 10

82730

【DB宝54】NewSQL数据库之TiDB简介

1.6、分布式数据库使用背景 1.7、OLTP和OLAP区别 1.7.1、OLTP 1.7.2、OLAP 二、TiDB 整体架构 三、FAQ 3.1、TiDB 是什么?...目标是为用户提供一站式 OLTP (Online Transactional Processing)、OLAP (Online Analytical Processing)、HTAP 解决方案。...的 OLTP 场景和 80% 的 OLAP 场景。...典型的应用就是复杂的动态报表系统 实时性:OLAP 的实时性要求不是很高,很多应用顶多是每天更新一下数据 数据量:OLAP 数据量大,因为 OLAP 支持的是动态查询,所以用户也许要通过将很多数据的统计后才能得到想要知道的信息...,例如时间序列分析等等,所以处理的数据量很大 用户和系统的面向性:OLAP 是面向市场的,用于数据分析 数据库设计:OLAP 采用星型或雪花模型和面向主题的数据库设计 二、TiDB 整体架构 与传统的单机数据库相比

1.7K30

您有多点会员吗?——数据库渐进式创新助力多点推进经营大脑实践

当然,如果多点只是用另外一套 OLAP 数据库来满足财务分析需求并承担双数据库所带来的运维成本升高的话,那么故事到此就结束了。但 TiDB 给多点提供的却是一条完全不同的路径。...作为一款具备 HTAP 能力的数据库,TiDB 可以同时满足 OLTP 和 OLAP 两种不同应用的需求。...在面对多点业财一体中的 OLAP 需求时,TiDB 能够提供高性能的分析能力,满足业财一体在财务端的报表合并及分析需求。...业财一体化架构图 而 TiDB 的 HTAP 能力则意味着多点可以首先在 OLAP 领域部署 TiDB,解决现有痛点。...在实际部署当中,承担 OLTP 业务的 MySQL 和承担 OLAPTiDB 之间通过 PingCAP 开发的 TiDB DM 工具和相关 API 实现高速数据同步,并且保证了金融级的数据一致性。

28220

TiDB安装简介

TiDB 的目标是为 OLTP (Online Transactional Processing) 和 OLAP (Online Analytical Processing) 场景提供一站式的解决方案。...TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景,更复杂的 OLAP 分析可以通过 TiSpark 项目来完成。...2、OLAP和OLTP OLTP 强调支持短时间内大量并发的事务操作(增删改查)能力,每个操作涉及的数据量都很小(比如几十到几百字节) 强调事务的强一致性(想想银行转账交易,容不得差错) OLAP 偏向于复杂的只读查询...此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件和简化云上部署管理的 TiDB Operator 组件。 TiDB Server:接受SQL请求,与客户端交互(计算能力)。...TiSpark:解决复杂OLAP查询。 TiDB Operator:云上部署组件。

37330

TiDB 与 Flink 相结合:高效、易用的实时数仓

[y7u4oedjci.png] 随着实时 OLAP 技术的提升,一个新的实时架构被提出,暂时被称为“实时 OLAP 变体”。...相比于 Kappa 架构,实时 OLAP 变体架构可以执行更加灵活的计算,但需要依赖额外的实时 OLAP 算力资源。...接下来我们将介绍的 Flink + TiDB 实时数仓方案,就属于实时 OLAP 变体架构。 关于实时数仓及这些架构更加详细的对比说明,有兴趣的读者可以参考 Flink 中文社区的这篇文章。...在集成了 TiFlash 之后,TiDB 已经成为了真正的 HTAP(在线事务处理 OLTP + 在线分析处理 OLAP)数据库。...换句话说,在实时数仓架构中,TiDB 既可以作为数据源的业务数据库,进行业务查询的处理;又可以作为实时 OLAP 引擎,进行分析型场景的计算。

1.5K12

单机版tidb数据库搭建

TiDB 的目标是为 OLTP(Online Transactional Processing) 和 OLAP (Online Analytical Processing) 场景提供一站式的解决方案。...TiDB 具备如下核心特点: # tidb 特点 高度兼容 MySQL 大多数情况下,无需修改代码即可从 MySQL 轻松迁移至 TiDB,分库分表后的 MySQL 集群亦可通过 TiDB 工具进行实时迁移...一站式 HTAP 解决方案 TiDB 作为典型的 OLTP 行存数据库,同时兼具强大的 OLAP 性能,配合 TiSpark,可提供一站式 HTAP解决方案,一份存储同时处理OLTP & OLAPOLAP...TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景,更复杂的 OLAP 分析可以通过 TiSpark 项目来完成。...tidb_install/include/sysinfo.sh inflating: tidb_install/include/tidb.sh creating: tidb_install

60520
领券