腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏作者
举报
635
文章
1277176
阅读量
315
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
sql
数据库
kafka
spark
flink
编程算法
apache
存储
hive
java
node.js
api
数据
hadoop
文件存储
缓存
hbase
云数据库 SQL Server
TDSQL MySQL 版
数据处理
分布式
数据结构
scala
云数据库 Redis
mapreduce
数据分析
javascript
linux
yarn
https
python
网络安全
unix
jvm
windows
zookeeper
打包
消息队列 CMQ 版
开发
批量计算
http
bash
数据湖
数据迁移
云计算
面试
xml
企业
数据安全
Elasticsearch Service
bash 指令
腾讯云测试服务
面向对象编程
框架
优化
jar
运维
processing
机器学习
json
日志数据
开源
hashmap
tcp/ip
rabbitmq
数据可视化
微服务
架构
html
神经网络
深度学习
压力测试
jdbc
rpc
nosql
spring
网站
express
sql server
nest
任务调度
es
数据集成
工具
配置
数据管理
系统
性能
oracle
github
maven
人工智能
vr 视频解决方案
electron
容器
shell
socket编程
kerberos
性能测试
实时数仓
测试
工作
行业
集群
内存
设计
实践
索引
原理
对象存储
官方文档
数据挖掘
css
ajax
android
ide
lucene/solr
nginx
容器镜像服务
海外加速
mongodb
rollup.js
kubernetes
uml
架构设计
5g
迁移
clickhouse
报表
产品
磁盘
函数
后端
监控
解决方案
模型
排序
事件
异常
最佳实践
负载均衡
自动驾驶
ios
iphone
php
go
lua
erlang
regex
react
typescript
postgresql
flask
sqlalchemy
git
搜索引擎
负载均衡缓存
专用宿主机
云数据迁移
日志服务
腾讯云可观测平台
命令行工具
云数据库 MongoDB
es 2
图像处理
数据备份
电商
出行
serverless
游戏
无人驾驶
jdk
推荐系统
markdown
zabbix
微信
机器人
物联网
系统架构
腾讯云开发者社区
安全治理
raft
实时监控
数据库管理
流计算 Oceanus
大数据存储
汽车
腾讯云
bi
bigdata
block
class
code
combine
configuration
csv
data
dp
export
fifo
hash
import
ip
key
memory
mysql
netty
populate
properties
pulsar
queue
rank
root
scheduler
select
state
sum
table
task
time
vi
window
报表工具
登录
队列
服务
高性能
管理
规范化
基础
架构师
接口
连接
日志
入门
实时计算
数据采集
数据同步
算法
微信公众号
线程
效率
协议
研发
语法
中间件
字符串
搜索文章
搜索
搜索
关闭
Apache Hudi 使用文件聚类功能 (Clustering) 解决小文件过多的问题
windows
flink
大数据
hive
sql
本文详细阐述了在 “批处理后,流处理之前” 进行文件 Clustering 操作的方法。该方法可以将众多小文件合并成数量极少的大文件,从而防止过多小文件的产生。
王知无-import_bigdata
2022-11-11
997
0
看完这篇, FlinkSQL 统统能整明白了
flink
大数据
sql
神经网络
深度学习
的确,这些年,越来越多开发,转行做大数据,又或通过大数据打造自己的竞争力(比如很多 Java 开发都会学学大数据),核心原因有三点:
王知无-import_bigdata
2022-11-11
713
0
阿里大数据之路:数据模型篇大总结
数据库
大数据
数据分析
sql
架构设计
核心:从业务架构设计(如何快速上手工作)到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。
王知无-import_bigdata
2022-11-11
1.3K
0
报表工具的二次革命
java
json
sql
报表
报表工具
报表工具是一个历史比较悠久的软件类产品了,已经有 20 年以上的发展历史了,在这 20 多年中,产品在不断的更新迭代,不断的随着需求的改变而进步完善,持续发挥着自己的价值
王知无-import_bigdata
2022-11-11
421
0
全球第一!新一代云数仓 SelectDB 登顶 ClickBench
腾讯云测试服务
apache
sql
数据库
大数据
概述:分析型数据库性能排行榜 ClickBench 最近迎来了一匹黑马,那就是成立不满一年,成绩却斐然的新一代云数仓 SelectDB。其在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下位居榜首,超越了此前霸占榜首的 ClickHouse,多项指标排行前列。这无疑在数据库领域掀起了大风浪,人们纷纷搜索 SelectDB 这个新名字。今天,就由小编带领大家来一探究竟吧!
王知无-import_bigdata
2022-11-11
664
0
「硬刚Doris系列」官方常见问题小汇总
tcp/ip
数据库
数据迁移
sql
在下线过程中,通过 show backends 查看下线节点的 tabletNum ,会观察到 tabletNum 数量在减少,说明数据分片正在从这个节点迁移走。当数量减到0时,系统会自动删除这个节点。但某些情况下,tabletNum 下降到一定数值后就不变化。这通常可能有以下两种原因:
王知无-import_bigdata
2022-06-05
3.1K
0
「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap
编程算法
sql
数据库
express
在 expression 层面一般采用 expression tree 的模型来解释执行,而在 operator 层面则大多采用火山模型。
王知无-import_bigdata
2022-06-05
1.2K
0
硬刚Doris系列」Apache Doris基本使用和数据模型
数据库
sql
javascript
打包
rollup.js
我们使用 event_day 列作为分区列,建立3个分区: p201706, p201707, p201708
王知无-import_bigdata
2022-06-05
1.4K
0
ClickHouse使用姿势系列之分布式JOIN
分布式
sql
JOIN操作是OLAP场景无法绕开的,且使用广泛的操作。对ClickHouse而言,非常有必要对分布式JOIN实现作深入研究。
王知无-import_bigdata
2022-06-05
1.2K
0
从B+树到LSM树,及LSM树在HBase中的应用
hbase
TDSQL MySQL 版
数据库
sql
在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中,则是使用日志结构合并树(Log-structured Merge Tree,LSM Tree)来组织数据。本文先由B+树来引出对LSM树的介绍,然后说明HBase中是如何运用LSM树的。
王知无-import_bigdata
2022-06-05
1K
0
Flink SQL窗口表值函数(Window TVF)聚合实现原理浅析
sql
flink
大数据
表值函数(table-valued function, TVF),顾名思义就是指返回值是一张表的函数,在Oracle、SQL Server等数据库中屡见不鲜。
王知无-import_bigdata
2022-06-05
1.4K
0
Presto在字节跳动的内部实践与优化
hive
数据分析
日志数据
大数据
sql
在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。
王知无-import_bigdata
2022-06-05
1.4K
0
基于Flink1.14 + Iceberg0.13构建实时数据湖实战
flink
大数据
hive
数据库
sql
Iceberg默认支持Hadoop Catalog。如果需要使用Hive Catalog,需要将flink-sql-connector-hive-3.1.2_2.12-1.14.3.jar放到Flink集群所有服务器的lib目录下,然后重启Flink
王知无-import_bigdata
2022-06-05
1.5K
0
那些年我们一起优化的SQL
编程算法
sql
数据库
云数据库 SQL Server
如果没有using index condtion,field1会走索引查询,匹配到对应的数据后,回表查出剩余字段信息,再去匹配。
王知无-import_bigdata
2022-06-05
523
0
经典SQL面试10题解析
sql
数据库
作为一名数据工作人员,SQL是日常工作中最常用的数据提取&简单预处理语言。因为其使用的广泛性和易学程度也被其他岗位比如产品经理、研发广泛学习使用,本篇文章主要结合经典面试题,给出通过数据开发面试的SQL方法与实战。以下题目均来与笔者经历&网上分享的中高难度SQL题。
王知无-import_bigdata
2022-04-13
2.3K
0
ClickHouse SQL基本语法和导入导出实战
数据库
sql
数据库起到了命名空间的作用,可以有效规避命名冲突的问题,也为后续的数据隔离提供了支撑。任何一张数据表,都必须归属在某个数据库之下。
王知无-import_bigdata
2022-04-13
2.2K
0
「ClickHouse系列」Replication机制详解
zookeeper
sql
在Clickhouse中, Replication的机制工作在表级别, 而不是库, 或者是节点层级. 一个节点可以同时存储使用Replication引擎的表以及不使用Replication引擎的表.
王知无-import_bigdata
2022-04-13
1.1K
0
Flink CDC 2.0原理详解和生产实践
flink
大数据
数据库
sql
CDC 的全称是 Change Data Capture ,在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC 。通常我们说的 CDC 技术主要面向 数据库的变更,是一种用于捕获数据库中数据变更的技术。
王知无-import_bigdata
2022-04-13
3.6K
0
「Clickhouse系列」分布式表&本地表详解
分布式
zookeeper
数据库
sql
存储
一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.
王知无-import_bigdata
2022-04-13
6.2K
0
Hudi小文件问题处理和生产调优个人笔记
sql
spark
javascript
日志数据
Apache Hudi提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。
王知无-import_bigdata
2022-04-13
1.6K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档