腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1277176

阅读量

315

订阅数

Apache Hudi 使用文件聚类功能 (Clustering) 解决小文件过多的问题

windows flink 大数据 hive sql

本文详细阐述了在 “批处理后，流处理之前” 进行文件 Clustering 操作的方法。该方法可以将众多小文件合并成数量极少的大文件，从而防止过多小文件的产生。

王知无-import_bigdata

2022-11-11

9970

看完这篇， FlinkSQL 统统能整明白了

flink 大数据 sql 神经网络深度学习

的确，这些年，越来越多开发，转行做大数据，又或通过大数据打造自己的竞争力（比如很多 Java 开发都会学学大数据），核心原因有三点：

王知无-import_bigdata

2022-11-11

7130

阿里大数据之路：数据模型篇大总结

数据库大数据数据分析 sql 架构设计

核心：从业务架构设计（如何快速上手工作）到模型设计，从数据研发到数据服务，做到数据可管理、可追溯、可规避重复建设。

王知无-import_bigdata

2022-11-11

1.3K0

报表工具的二次革命

java json sql 报表报表工具

报表工具是一个历史比较悠久的软件类产品了，已经有 20 年以上的发展历史了，在这 20 多年中，产品在不断的更新迭代，不断的随着需求的改变而进步完善，持续发挥着自己的价值

王知无-import_bigdata

2022-11-11

4210

全球第一！新一代云数仓 SelectDB 登顶 ClickBench

腾讯云测试服务 apache sql 数据库大数据

概述：分析型数据库性能排行榜 ClickBench 最近迎来了一匹黑马，那就是成立不满一年，成绩却斐然的新一代云数仓 SelectDB。其在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下位居榜首，超越了此前霸占榜首的 ClickHouse，多项指标排行前列。这无疑在数据库领域掀起了大风浪，人们纷纷搜索 SelectDB 这个新名字。今天，就由小编带领大家来一探究竟吧！

王知无-import_bigdata

2022-11-11

6640

「硬刚Doris系列」官方常见问题小汇总

tcp/ip 数据库数据迁移 sql

在下线过程中，通过 show backends 查看下线节点的 tabletNum ，会观察到 tabletNum 数量在减少，说明数据分片正在从这个节点迁移走。当数量减到0时，系统会自动删除这个节点。但某些情况下，tabletNum 下降到一定数值后就不变化。这通常可能有以下两种原因：

王知无-import_bigdata

2022-06-05

3.1K0

「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap

编程算法 sql 数据库 express

在 expression 层面一般采用 expression tree 的模型来解释执行，而在 operator 层面则大多采用火山模型。

王知无-import_bigdata

2022-06-05

1.2K0

硬刚Doris系列」Apache Doris基本使用和数据模型

数据库 sql javascript 打包 rollup.js

我们使用 event_day 列作为分区列，建立3个分区: p201706, p201707, p201708

王知无-import_bigdata

2022-06-05

1.4K0

ClickHouse使用姿势系列之分布式JOIN

JOIN操作是OLAP场景无法绕开的，且使用广泛的操作。对ClickHouse而言，非常有必要对分布式JOIN实现作深入研究。

王知无-import_bigdata

2022-06-05

1.2K0

从B+树到LSM树，及LSM树在HBase中的应用

hbase TDSQL MySQL 版数据库 sql

在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中，则是使用日志结构合并树（Log-structured Merge Tree，LSM Tree）来组织数据。本文先由B+树来引出对LSM树的介绍，然后说明HBase中是如何运用LSM树的。

王知无-import_bigdata

2022-06-05

1K0

Flink SQL窗口表值函数（Window TVF）聚合实现原理浅析

sql flink 大数据

表值函数(table-valued function, TVF)，顾名思义就是指返回值是一张表的函数，在Oracle、SQL Server等数据库中屡见不鲜。

王知无-import_bigdata

2022-06-05

1.4K0

Presto在字节跳动的内部实践与优化

hive 数据分析日志数据大数据 sql

在字节跳动内部，Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景，日查询量接近 100 万条。

王知无-import_bigdata

2022-06-05

1.4K0

基于Flink1.14 + Iceberg0.13构建实时数据湖实战

flink 大数据 hive 数据库 sql

Iceberg默认支持Hadoop Catalog。如果需要使用Hive Catalog，需要将flink-sql-connector-hive-3.1.2_2.12-1.14.3.jar放到Flink集群所有服务器的lib目录下，然后重启Flink

王知无-import_bigdata

2022-06-05

1.5K0

那些年我们一起优化的SQL

编程算法 sql 数据库云数据库 SQL Server

如果没有using index condtion，field1会走索引查询，匹配到对应的数据后，回表查出剩余字段信息，再去匹配。

王知无-import_bigdata

2022-06-05

5230

经典SQL面试10题解析

作为一名数据工作人员，SQL是日常工作中最常用的数据提取&简单预处理语言。因为其使用的广泛性和易学程度也被其他岗位比如产品经理、研发广泛学习使用，本篇文章主要结合经典面试题，给出通过数据开发面试的SQL方法与实战。以下题目均来与笔者经历&网上分享的中高难度SQL题。

王知无-import_bigdata

2022-04-13

2.3K0

ClickHouse SQL基本语法和导入导出实战

数据库起到了命名空间的作用，可以有效规避命名冲突的问题，也为后续的数据隔离提供了支撑。任何一张数据表，都必须归属在某个数据库之下。

王知无-import_bigdata

2022-04-13

2.2K0

「ClickHouse系列」Replication机制详解

在Clickhouse中, Replication的机制工作在表级别, 而不是库, 或者是节点层级. 一个节点可以同时存储使用Replication引擎的表以及不使用Replication引擎的表.

王知无-import_bigdata

2022-04-13

1.1K0

Flink CDC 2.0原理详解和生产实践

flink 大数据数据库 sql

CDC 的全称是 Change Data Capture ，在广义的概念上，只要能捕获数据变更的技术，我们都可以称为 CDC 。通常我们说的 CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。

王知无-import_bigdata

2022-04-13

3.6K0

「Clickhouse系列」分布式表&本地表详解

分布式 zookeeper 数据库 sql 存储

一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.

王知无-import_bigdata

2022-04-13

6.2K0

Hudi小文件问题处理和生产调优个人笔记

sql spark javascript 日志数据

Apache Hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。

王知无-import_bigdata

2022-04-13

1.6K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态