腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
暴走大数据
专栏成员
举报
298
文章
619192
阅读量
101
订阅数
订阅专栏
申请加入专栏
全部文章(298)
大数据(118)
sql(66)
spark(66)
数据库(47)
编程算法(45)
存储(39)
kafka(39)
flink(39)
java(30)
node.js(29)
文件存储(24)
hive(23)
缓存(22)
hadoop(21)
api(16)
hbase(16)
mapreduce(15)
TDSQL MySQL 版(15)
数据处理(15)
linux(14)
apache(14)
数据结构(14)
云数据库 Redis®(13)
分布式(13)
rpc(13)
javascript(12)
云数据库 SQL Server(12)
网络安全(12)
https(12)
数据分析(11)
unix(10)
zookeeper(10)
http(9)
jvm(9)
bash(8)
yarn(8)
html(7)
bash 指令(7)
消息队列 CMQ 版(7)
vr 视频解决方案(6)
Elasticsearch Service(6)
搜索引擎(5)
开源(5)
面向对象编程(5)
es(5)
python(4)
scala(4)
打包(4)
lucene/solr(4)
批量计算(4)
网站(4)
数据安全(4)
hashmap(4)
tcp/ip(4)
数据湖(4)
负载均衡(3)
xml(3)
jquery(3)
电商(3)
企业(3)
kubernetes(3)
运维(3)
rabbitmq(3)
uml(3)
云计算(3)
任务调度(3)
raft(3)
php(2)
ide(2)
github(2)
负载均衡缓存(2)
nginx(2)
腾讯云测试服务(2)
日志数据(2)
数据迁移(2)
socket编程(2)
windows(2)
架构设计(2)
微服务(2)
processing(2)
费用中心(1)
其他(1)
官方文档(1)
机器学习(1)
ios(1)
iphone(1)
c 语言(1)
c++(1)
servlet(1)
bootstrap(1)
json(1)
ajax(1)
android(1)
oracle(1)
jar(1)
全文检索(1)
analyzer(1)
容器镜像服务(1)
云数据迁移(1)
短视频(1)
命令行工具(1)
腾讯计费(1)
数据备份(1)
express(1)
容器(1)
parcel(1)
压力测试(1)
shell(1)
jdk(1)
sql server(1)
jdbc(1)
grep(1)
markdown(1)
kerberos(1)
微信(1)
数据可视化(1)
mqtt(1)
ipv6(1)
数据湖分析(1)
clickhouse(1)
count(1)
flush(1)
init(1)
invoke(1)
io(1)
ip(1)
map(1)
merge(1)
olap(1)
parquet(1)
partition(1)
queue(1)
record(1)
session(1)
sign(1)
state(1)
task(1)
tdd(1)
view(1)
zk(1)
实践(1)
数据(1)
统计(1)
异步(1)
搜索文章
搜索
搜索
关闭
HBase BulkLoad 原理及批量写入数据实战
大数据
存储
hbase
TDSQL MySQL 版
jar
之前我们介绍了HBASE的存储机制,HBASE存储数据其底层使用的是HDFS来作为存储介质,HBASE的每一张表对应的HDFS目录上的一个文件夹,文件夹名是以HBASE表的名字来命名(如果没有使用命名空间,那么默认是在default目录下)。在表文件夹下存放着若干个region命名的文件夹,而region文件夹中的每个列族也是用文件夹进行存储的,每个列族中存储的就是实际的数据,以HFile的形式存在。
大数据真好玩
2022-12-05
2.1K
0
Apache Hudi压缩Compaction源码解析
文件存储
了解过hudi的新手或者专家都知道,hudi不管是COW还是MOR表,其文件还是存储在hdfs上。因为下来介绍我在学习hudi压缩的一些东西,所以下方就以MOR表文件做下介绍。下方会由浅入深尝试说明压缩计划和压缩策略等等之间的关系。
大数据真好玩
2022-12-05
1.8K
0
Flink写入数据到Hudi数据湖的各种方式
bootstrap
flink
大数据
jquery
sql
主要用于数据初始化导入。Bulk Insert不会进行数据去重,需要用户在数据插入前进行数据去重
大数据真好玩
2022-12-05
2.3K
0
Flink双流及多流Join 、IntervalJoin、coGroupJoin的区别与生产使用
unix
编程算法
数据库
sql
云数据库 SQL Server
1.Flink 三种Join的代码测试 1.1 数据源 1.2 join 1.3 intervalJoin 1.3.1 intervalJoin API用法 1.3.2 intervalJoin SQL用法 1.4 coGroup
大数据真好玩
2022-12-05
3.1K
0
时间轮在Netty、Kafka中的应用
kafka
linux
java
编程算法
时间轮是一个高性能、低消耗的数据结构,它适合用非准实时,延迟的短平快任务,例如心跳检测。在Netty、Kafka、Zookeeper中都有使用。
大数据真好玩
2022-12-05
1.4K
0
Flink控制任务调度:作业链与处理槽共享组(SlotSharingGroup)
flink
大数据
为了实现并行执行,Flink应用会将算子划分为不同任务,然后将这些任务分配到集群中的不同进程上去执行。和很多其他分布式系统一样,Flink应用的性能很大程度上取决于任务的调度方式。任务被分配到的工作进程、任务间的共存情况以及工作进程中的任务数都会对应用的性能产生显著影响。本节中我们就讨论一下如何通过调整默认行为以及控制作业链与作业分配(处理槽共享组)来提高应用的性能。
大数据真好玩
2022-12-05
2.8K
0
Hudi与Spark和HDFS的集成安装使用
大数据
shell
hadoop
面向对象编程
打包
将maven的安装包上传到centos7服务器上,并解压,然后配置系统环境变量即可
大数据真好玩
2022-06-17
1.5K
0
腾讯广告业务基于Apache Flink + Hudi的批流一体实践
数据分析
数据处理
编程算法
javascript
存储
广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要的数据是计费数据,以计费日志为依据向上可统计如行业维度、客户维度的消耗数据,分析不同维度的计费数据有助于业务及时进行商业决策,但目前部门内消耗统计以离线为主,这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求,所以我们的目标为:建设口径统一的实时消耗数据,结合BI工具的自动化配置和展现能力,满足业务实时多维消耗分析,提高数据运营的效率和数据准确性。
大数据真好玩
2022-06-17
1.4K
0
基于Seatunnel连通Hive和ClickHouse实战
编程算法
spark
hive
jquery
hadoop
官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11
大数据真好玩
2022-06-17
2.4K
0
Flink 上下游算子并发之间的数据传递方式
面向对象编程
the output elements are forwarded to the local subtask of the next operation.
大数据真好玩
2022-06-17
1.7K
0
Flink写Elasticsearch导致Checkpoint频繁失败的解决方案
es
flink
flush
ip
最近做的一个需求,在一个Flink程序中,根据数据里面的ip进行分流,每个流对应一个ES的索引,一共有14个索引,开启checkpoint。
大数据真好玩
2022-06-17
1.1K
0
Apache Kafka 3.2.0 重磅发布!
tcp/ip
kafka
apache
api
http
3.2.0 版本包含许多新功能和改进。本文将重点介绍一些最突出的新功能。有关更改的完整列表,请务必查看发行说明。您还可以观看发布视频,了解 Apache Kafka 3.2.0 中的新功能摘要。
大数据真好玩
2022-06-17
2.1K
0
Flink RocksDB托管内存机制的幕后—Cache & Write Buffer Manager
大数据
flink
vr 视频解决方案
编程算法
缓存
为了解决Flink作业使用RocksDB状态后端时的内存超用问题,Flink早在1.10版本就实现了RocksDB的托管内存(managed memory)机制。用户只需启用state.backend.rocksdb.memory.managed参数(默认即为true),再设定合适的TaskManager托管内存比例taskmanager.memory.managed.fraction,即可满足多数情况的需要。
大数据真好玩
2022-06-17
1.6K
0
Apache Doris,MPP架构数据库王者学习总结
存储
数据库
sql
大数据
云数据库 SQL Server
doris是一个基于mpp(massively parallel processing,即大规模并行处理)的交互式sql数据仓库,是一个面向多种数据分析场景的,兼容mysql协议的,高性能的,分布式关系型列式数据库,用于报告和分析。
大数据真好玩
2022-04-27
3.2K
0
Flink水印不能触发窗口计算问题详解
unix
前言 1.watermark特点 2.窗口 触发的条件 窗口的划分 窗口及水印触发的解释 3.代码 4.测试数据源 5.遇到的问题 6.问题排查 7.问题解决
大数据真好玩
2022-04-27
1.7K
0
Hbase WAL日志数据实时增量推送至Kafka
hbase
TDSQL MySQL 版
kafka
rpc
批量计算
Hbase提供了跨集群的数据同步方式Replication,可通过自定义Replication Endpoint,把消息写入kafka,先来了解Hbase Replication集群之间进行复制同步的过程,整体数据复制流程如下图:
大数据真好玩
2022-04-27
1.8K
0
「ClickHouse系列」ClickHouse中的物化视图详解
数据库
sql
存储
视图是由若干个字段以及若干条记录构成(也常称为虚标),它与表有很多相似的地方,视图中的数据源来自于原表,视图本身不存储数据,视图它保存的仅仅是一条select语句,并没有保存真正的数据。
大数据真好玩
2022-04-27
12.6K
0
基于PushGateway+Prometheus+Grafana构建Flink实时监控体系
https
网络安全
flink
大数据
github
本文主要介绍将flink任务运行的metric发送到Prometheus,通过grafana报表工具展示。
大数据真好玩
2022-04-27
4.1K
0
数据质量监控框架及解决方案总结
apache
大数据
开源
python
随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。
大数据真好玩
2022-04-01
3.5K
0
ClickHouse 数据类型全解析及实际应用
java
ipv6
编程算法
tcp/ip
python
基础类型只有数值、字符串和时间三种类型,没有 Boolean 类型,但可以使用整型的 0 或 1 替代。ClickHouse 的数据类型和常见的其他存储系统的数据类型对比:
大数据真好玩
2022-03-28
5.3K
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档