学习
实践
活动
工具
TVP
写文章

王知无-import_bigdata

LV1
举报
发表了文章

Apache Hudi 使用文件聚类功能 (Clustering) 解决小文件过多的问题

本文详细阐述了在 “批处理后,流处理之前” 进行文件 Clustering 操作的方法。该方法可以将众多小文件合并成数量极少的大文件,从而防止过多小文件的产生。...

王知无-import_bigdata
WindowsFlink大数据HiveSQL
发表了文章

看完这篇, FlinkSQL 统统能整明白了

的确,这些年,越来越多开发,转行做大数据,又或通过大数据打造自己的竞争力(比如很多 Java 开发都会学学大数据),核心原因有三点:

王知无-import_bigdata
Flink大数据SQL神经网络深度学习
发表了文章

Hive SQL 大厂必考常用窗口函数及相关面试题

二、窗口函数的基本用法 1.基本语法 2.设置窗口的方法 1)window_name 2)partition by 子句 3) order by子句 4)row...

王知无-import_bigdata
大数据
发表了文章

一文读懂,硬核 Apache DolphinScheduler3.0 源码解析

大家能关注DolphinScheduler那么一定对调度系统有了一定的了解,对于调度所涉及的到一些专有名词在这里就不做过多的介绍,重点介绍一下流程定义,流程实例...

王知无-import_bigdata
任务调度日志服务Java
发表了文章

阿里大数据之路:数据模型篇大总结

核心:从业务架构设计(如何快速上手工作)到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。

王知无-import_bigdata
数据库大数据数据分析SQL架构设计
发表了文章

报表工具的二次革命

报表工具是一个历史比较悠久的软件类产品了,已经有 20 年以上的发展历史了,在这 20 多年中,产品在不断的更新迭代,不断的随着需求的改变而进步完善,持续发挥着...

王知无-import_bigdata
发表了文章

全球第一!新一代云数仓 SelectDB 登顶 ClickBench

概述:分析型数据库性能排行榜 ClickBench 最近迎来了一匹黑马,那就是成立不满一年,成绩却斐然的新一代云数仓 SelectDB。其在业界最为通用的 c6...

王知无-import_bigdata
腾讯云测试服务ApacheSQL数据库大数据
关注了用户

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

CSDN大数据领域博客专家,华为云享专家、公众号【三帮大数据】回复关键词“大数据”送学习资料

854 文章21 回答1.7K 关注者
发表了文章

「硬刚Doris系列」官方常见问题小汇总

在下线过程中,通过 show backends 查看下线节点的 tabletNum ,会观察到 tabletNum 数量在减少,说明数据分片正在从这个节点迁移走...

王知无-import_bigdata
TCP/IP数据库数据迁移SQL数据迁移解决方案
发表了文章

「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap

在 expression 层面一般采用 expression tree 的模型来解释执行,而在 operator 层面则大多采用火山模型。

王知无-import_bigdata
编程算法SQL数据库Express
发表了文章

「硬刚Doris系列」Apache Doris 架构原理及核心特性解读

Doris主要分为FE和BE两个组件,FE主要负责查询的编译,分发和元数据管理(基于内存,类似HDFS NN);BE主要负责查询的执行和存储系统

王知无-import_bigdata
分布式Android存储
发表了文章

「硬刚Doris系列」Doris高级用法

Rollup 可以理解为 Table 的一个物化索引结构。物化 是因为其数据在物理上独立存储,而 索引 的意思是,Rollup可以调整列顺序以增加前缀索引的命中...

王知无-import_bigdata
JavaScript打包Rollup.js
发表了文章

硬刚Doris系列」Apache Doris基本使用和数据模型

我们使用 event_day 列作为分区列,建立3个分区: p201706, p201707, p201708

王知无-import_bigdata
数据库SQLJavaScript打包Rollup.js
发表了文章

ClickHouse使用姿势系列之分布式JOIN

JOIN操作是OLAP场景无法绕开的,且使用广泛的操作。对ClickHouse而言,非常有必要对分布式JOIN实现作深入研究。

王知无-import_bigdata
分布式SQL
发表了文章

「Hudi系列」Hudi查询&写入&常见问题汇总

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

王知无-import_bigdata
Hive大数据文件存储数据库spark
发表了文章

从B+树到LSM树,及LSM树在HBase中的应用

在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据...

王知无-import_bigdata
HBaseTDSQL MySQL 版数据库SQL
发表了文章

Apache Hudi 0.11 版本重磅发布,新特性速览!

在 0.11.0 中,默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和...

王知无-import_bigdata
spark打包Flink大数据Hive
发表了文章

Flink SQL窗口表值函数(Window TVF)聚合实现原理浅析

表值函数(table-valued function, TVF),顾名思义就是指返回值是一张表的函数,在Oracle、SQL Server等数据库中屡见不鲜。

王知无-import_bigdata
SQLFlink大数据
发表了文章

Presto在字节跳动的内部实践与优化

在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。

王知无-import_bigdata
Hive数据分析日志数据大数据SQL
发表了文章

Flink 细粒度资源管理新特性解读

ApacheFlink努力为所有现成的应用程序自动导出合理的默认资源需求。对于希望根据特定场景的知识微调资源消耗的用户,Flink提供细粒度资源管理。

王知无-import_bigdata
Flink大数据WindowsBash

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券