大数据成神之路-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏成员

638

文章

1404993

阅读量

322

订阅数

FlinkCDC发展历程和简历中项目描述的思路

数据库数据集成工具框架数据

前两天，FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化，从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。

王知无-import_bigdata

2023-12-26

3460

FlinkCDC发展历程和简历中项目描述的思路

数据库数据集成工具框架数据

前两天，FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化，从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。

王知无-import_bigdata

2023-12-26

2630

阿里大数据之路：数据模型篇大总结

数据库大数据数据分析 sql 架构设计

核心：从业务架构设计（如何快速上手工作）到模型设计，从数据研发到数据服务，做到数据可管理、可追溯、可规避重复建设。

王知无-import_bigdata

2022-11-11

1.6K0

全球第一！新一代云数仓 SelectDB 登顶 ClickBench

腾讯云测试服务 apache sql 数据库大数据

概述：分析型数据库性能排行榜 ClickBench 最近迎来了一匹黑马，那就是成立不满一年，成绩却斐然的新一代云数仓 SelectDB。其在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下位居榜首，超越了此前霸占榜首的 ClickHouse，多项指标排行前列。这无疑在数据库领域掀起了大风浪，人们纷纷搜索 SelectDB 这个新名字。今天，就由小编带领大家来一探究竟吧！

王知无-import_bigdata

2022-11-11

7660

「硬刚Doris系列」官方常见问题小汇总

tcp/ip 数据库数据迁移 sql

在下线过程中，通过 show backends 查看下线节点的 tabletNum ，会观察到 tabletNum 数量在减少，说明数据分片正在从这个节点迁移走。当数量减到0时，系统会自动删除这个节点。但某些情况下，tabletNum 下降到一定数值后就不变化。这通常可能有以下两种原因：

王知无-import_bigdata

2022-06-05

4.1K0

「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap

编程算法 sql 数据库 express

在 expression 层面一般采用 expression tree 的模型来解释执行，而在 operator 层面则大多采用火山模型。

王知无-import_bigdata

2022-06-05

1.3K0

硬刚Doris系列」Apache Doris基本使用和数据模型

数据库 sql javascript 打包 rollup.js

我们使用 event_day 列作为分区列，建立3个分区: p201706, p201707, p201708

王知无-import_bigdata

2022-06-05

1.8K0

「Hudi系列」Hudi查询&写入&常见问题汇总

hive 大数据文件存储数据库 spark

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

王知无-import_bigdata

2022-06-05

6.3K0

从B+树到LSM树，及LSM树在HBase中的应用

hbase TDSQL MySQL 版数据库 sql

在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中，则是使用日志结构合并树（Log-structured Merge Tree，LSM Tree）来组织数据。本文先由B+树来引出对LSM树的介绍，然后说明HBase中是如何运用LSM树的。

王知无-import_bigdata

2022-06-05

1.1K0

基于Flink1.14 + Iceberg0.13构建实时数据湖实战

flink 大数据 hive 数据库 sql

Iceberg默认支持Hadoop Catalog。如果需要使用Hive Catalog，需要将flink-sql-connector-hive-3.1.2_2.12-1.14.3.jar放到Flink集群所有服务器的lib目录下，然后重启Flink

王知无-import_bigdata

2022-06-05

1.6K0

那些年我们一起优化的SQL

编程算法 sql 数据库云数据库 SQL Server

如果没有using index condtion，field1会走索引查询，匹配到对应的数据后，回表查出剩余字段信息，再去匹配。

王知无-import_bigdata

2022-06-05

5790

经典SQL面试10题解析

作为一名数据工作人员，SQL是日常工作中最常用的数据提取&简单预处理语言。因为其使用的广泛性和易学程度也被其他岗位比如产品经理、研发广泛学习使用，本篇文章主要结合经典面试题，给出通过数据开发面试的SQL方法与实战。以下题目均来与笔者经历&网上分享的中高难度SQL题。

王知无-import_bigdata

2022-04-13

2.8K0

ClickHouse SQL基本语法和导入导出实战

数据库起到了命名空间的作用，可以有效规避命名冲突的问题，也为后续的数据隔离提供了支撑。任何一张数据表，都必须归属在某个数据库之下。

王知无-import_bigdata

2022-04-13

2.5K0

Flink CDC 2.0原理详解和生产实践

flink 大数据数据库 sql

CDC 的全称是 Change Data Capture ，在广义的概念上，只要能捕获数据变更的技术，我们都可以称为 CDC 。通常我们说的 CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。

王知无-import_bigdata

2022-04-13

3.9K0

「Clickhouse系列」分布式表&本地表详解

分布式 zookeeper 数据库 sql 存储

一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.

王知无-import_bigdata

2022-04-13

7.6K0

「Apache Hudi系列」核心概念与架构设计总结

文件存储 hbase TDSQL MySQL 版数据库大数据

Apache Hudi依赖 HDFS 做底层的存储，所以可以支撑非常大规模的数据存储。同时基于下面两个原语，Hudi可以解决流批一体的存储问题。

王知无-import_bigdata

2022-03-11

1.1K0

【Spark重点难点08】Spark3.0中的AQE和DPP小总结

spark 数据库 sql

包括动态分区剪裁(Dynamic Partition Pruning)、自适应查询执行(Adaptive Query Execution)、加速器感知调度(Accelerator-aware Scheduling)、支持 Catalog 的数据源API（Data Source API with Catalog Supports）、SparkR 中的向量化（Vectorization in SparkR）、支持 Hadoop 3/JDK 11/Scala 2.12 等等。

王知无-import_bigdata

2021-12-22

2.6K0

【Spark重点难点07】SparkSQL YYDS(加餐)！

spark sql 数据库 java ide

Spark发展到今天，Spark SQL的方式已经是官方推荐的开发方式了。在今年的Spark 3.0大版本发布中，Spark SQL的优化占比将近50%；而像PySpark、Mllib 和 Streaming的优化占比都不超过10%，Graph的占比几乎可以忽略不计。

王知无-import_bigdata

2021-12-22

7260

基于Hive数据仓库的标签画像实战

数据库日志数据 sql hive 存储

建立用户画像首先需要建立数据仓库，用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具，依赖于HDFS存储数据，提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库，存储标签和用户特征库等相关数据。

王知无-import_bigdata

2021-11-30

9640

数据同步工具之FlinkCDC/Canal/Debezium对比

云数据库 SQL Server kafka flink 大数据数据库

数据准实时复制（CDC）是目前行内实时数据需求大量使用的技术，随着国产化的需求，我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发，逐步实现对商业产品的替代。本文把市面上常见的几种开源产品，Canal、Debezium、Flink CDC 从原理和适用做了对比，供大家参考。

王知无-import_bigdata

2021-10-27

10.8K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态