首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1277176
阅读量
315
订阅数
Apache Hudi 使用文件聚类功能 (Clustering) 解决小文件过多的问题
本文详细阐述了在 “批处理后,流处理之前” 进行文件 Clustering 操作的方法。该方法可以将众多小文件合并成数量极少的大文件,从而防止过多小文件的产生。
王知无-import_bigdata
2022-11-11
9970
看完这篇, FlinkSQL 统统能整明白了
的确,这些年,越来越多开发,转行做大数据,又或通过大数据打造自己的竞争力(比如很多 Java 开发都会学学大数据),核心原因有三点:
王知无-import_bigdata
2022-11-11
7130
阿里大数据之路:数据模型篇大总结
核心:从业务架构设计(如何快速上手工作)到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。
王知无-import_bigdata
2022-11-11
1.3K0
报表工具的二次革命
报表工具是一个历史比较悠久的软件类产品了,已经有 20 年以上的发展历史了,在这 20 多年中,产品在不断的更新迭代,不断的随着需求的改变而进步完善,持续发挥着自己的价值
王知无-import_bigdata
2022-11-11
4210
全球第一!新一代云数仓 SelectDB 登顶 ClickBench
概述:分析型数据库性能排行榜 ClickBench 最近迎来了一匹黑马,那就是成立不满一年,成绩却斐然的新一代云数仓 SelectDB。其在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下位居榜首,超越了此前霸占榜首的 ClickHouse,多项指标排行前列。这无疑在数据库领域掀起了大风浪,人们纷纷搜索 SelectDB 这个新名字。今天,就由小编带领大家来一探究竟吧!
王知无-import_bigdata
2022-11-11
6640
「硬刚Doris系列」官方常见问题小汇总
在下线过程中,通过 show backends 查看下线节点的 tabletNum ,会观察到 tabletNum 数量在减少,说明数据分片正在从这个节点迁移走。当数量减到0时,系统会自动删除这个节点。但某些情况下,tabletNum 下降到一定数值后就不变化。这通常可能有以下两种原因:
王知无-import_bigdata
2022-06-05
3.1K0
「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap
在 expression 层面一般采用 expression tree 的模型来解释执行,而在 operator 层面则大多采用火山模型。
王知无-import_bigdata
2022-06-05
1.2K0
硬刚Doris系列」Apache Doris基本使用和数据模型
我们使用 event_day 列作为分区列,建立3个分区: p201706, p201707, p201708
王知无-import_bigdata
2022-06-05
1.4K0
ClickHouse使用姿势系列之分布式JOIN
JOIN操作是OLAP场景无法绕开的,且使用广泛的操作。对ClickHouse而言,非常有必要对分布式JOIN实现作深入研究。
王知无-import_bigdata
2022-06-05
1.2K0
从B+树到LSM树,及LSM树在HBase中的应用
在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中,则是使用日志结构合并树(Log-structured Merge Tree,LSM Tree)来组织数据。本文先由B+树来引出对LSM树的介绍,然后说明HBase中是如何运用LSM树的。
王知无-import_bigdata
2022-06-05
1K0
Flink SQL窗口表值函数(Window TVF)聚合实现原理浅析
表值函数(table-valued function, TVF),顾名思义就是指返回值是一张表的函数,在Oracle、SQL Server等数据库中屡见不鲜。
王知无-import_bigdata
2022-06-05
1.4K0
Presto在字节跳动的内部实践与优化
在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。
王知无-import_bigdata
2022-06-05
1.4K0
基于Flink1.14 + Iceberg0.13构建实时数据湖实战
Iceberg默认支持Hadoop Catalog。如果需要使用Hive Catalog,需要将flink-sql-connector-hive-3.1.2_2.12-1.14.3.jar放到Flink集群所有服务器的lib目录下,然后重启Flink
王知无-import_bigdata
2022-06-05
1.5K0
那些年我们一起优化的SQL
如果没有using index condtion,field1会走索引查询,匹配到对应的数据后,回表查出剩余字段信息,再去匹配。
王知无-import_bigdata
2022-06-05
5230
经典SQL面试10题解析
作为一名数据工作人员,SQL是日常工作中最常用的数据提取&简单预处理语言。因为其使用的广泛性和易学程度也被其他岗位比如产品经理、研发广泛学习使用,本篇文章主要结合经典面试题,给出通过数据开发面试的SQL方法与实战。以下题目均来与笔者经历&网上分享的中高难度SQL题。
王知无-import_bigdata
2022-04-13
2.3K0
ClickHouse SQL基本语法和导入导出实战
数据库起到了命名空间的作用,可以有效规避命名冲突的问题,也为后续的数据隔离提供了支撑。任何一张数据表,都必须归属在某个数据库之下。
王知无-import_bigdata
2022-04-13
2.2K0
「ClickHouse系列」Replication机制详解
在Clickhouse中, Replication的机制工作在表级别, 而不是库, 或者是节点层级. 一个节点可以同时存储使用Replication引擎的表以及不使用Replication引擎的表.
王知无-import_bigdata
2022-04-13
1.1K0
Flink CDC 2.0原理详解和生产实践
CDC 的全称是 Change Data Capture ,在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC 。通常我们说的 CDC 技术主要面向 数据库的变更,是一种用于捕获数据库中数据变更的技术。
王知无-import_bigdata
2022-04-13
3.6K0
「Clickhouse系列」分布式表&本地表详解
一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.
王知无-import_bigdata
2022-04-13
6.2K0
Hudi小文件问题处理和生产调优个人笔记
Apache Hudi提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。
王知无-import_bigdata
2022-04-13
1.6K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档