学习
实践
活动
专区
工具
TVP
写文章

大数据真好玩

LV0
举报
发表了文章

HBase BulkLoad 原理及批量写入数据实战

之前我们介绍了HBASE的存储机制,HBASE存储数据其底层使用的是HDFS来作为存储介质,HBASE的每一张表对应的HDFS目录上的一个文件夹,文件夹名是以H...

大数据真好玩
大数据存储HBaseTDSQL MySQL 版JAR
发表了文章

Apache Hudi压缩Compaction源码解析

了解过hudi的新手或者专家都知道,hudi不管是COW还是MOR表,其文件还是存储在hdfs上。因为下来介绍我在学习hudi压缩的一些东西,所以下方就以MOR...

大数据真好玩
文件存储
发表了文章

Flink写入数据到Hudi数据湖的各种方式

主要用于数据初始化导入。Bulk Insert不会进行数据去重,需要用户在数据插入前进行数据去重

大数据真好玩
BootstrapFlink大数据jQuerySQL
发表了文章

Flink双流及多流Join 、IntervalJoin、coGroupJoin的区别与生产使用

1.Flink 三种Join的代码测试 1.1 数据源 1.2 join 1.3 intervalJoin 1.3.1 intervalJoin API用法 1...

大数据真好玩
Unix编程算法数据库SQL云数据库 SQL Server
发表了文章

时间轮在Netty、Kafka中的应用

时间轮是一个高性能、低消耗的数据结构,它适合用非准实时,延迟的短平快任务,例如心跳检测。在Netty、Kafka、Zookeeper中都有使用。

大数据真好玩
KafkaLinuxJava编程算法
发表了文章

Flink控制任务调度:作业链与处理槽共享组(SlotSharingGroup)

为了实现并行执行,Flink应用会将算子划分为不同任务,然后将这些任务分配到集群中的不同进程上去执行。和很多其他分布式系统一样,Flink应用的性能很大程度上取...

大数据真好玩
Flink大数据
发表了文章

Hudi与Spark和HDFS的集成安装使用

将maven的安装包上传到centos7服务器上,并解压,然后配置系统环境变量即可

大数据真好玩
大数据ShellHadoop面向对象编程打包
发表了文章

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要...

大数据真好玩
数据分析数据处理编程算法JavaScript存储
发表了文章

基于Seatunnel连通Hive和ClickHouse实战

官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11

大数据真好玩
编程算法sparkHivejQueryHadoop
发表了文章

Flink 上下游算子并发之间的数据传递方式

the output elements are forwarded to the local subtask of the next operation.

大数据真好玩
面向对象编程
发表了文章

Flink写Elasticsearch导致Checkpoint频繁失败的解决方案

最近做的一个需求,在一个Flink程序中,根据数据里面的ip进行分流,每个流对应一个ES的索引,一共有14个索引,开启checkpoint。

大数据真好玩
发表了文章

Apache Kafka 3.2.0 重磅发布!

3.2.0 版本包含许多新功能和改进。本文将重点介绍一些最突出的新功能。有关更改的完整列表,请务必查看发行说明。您还可以观看发布视频,了解 Apache Kaf...

大数据真好玩
TCP/IPKafkaApacheAPIHTTP
发表了文章

Flink RocksDB托管内存机制的幕后—Cache & Write Buffer Manager

为了解决Flink作业使用RocksDB状态后端时的内存超用问题,Flink早在1.10版本就实现了RocksDB的托管内存(managed memory)机制...

大数据真好玩
大数据FlinkVR 视频解决方案编程算法缓存
发表了文章

Apache Doris,MPP架构数据库王者学习总结

doris是一个基于mpp(massively parallel processing,即大规模并行处理)的交互式sql数据仓库,是一个面向多种数据分析场景的,...

大数据真好玩
存储数据库SQL大数据云数据库 SQL Server
发表了文章

Flink水印不能触发窗口计算问题详解

前言 1.watermark特点 2.窗口 触发的条件 窗口的划分 窗口及水印触发的解释 3.代码 4.测试数据源 5.遇到的问题 6.问题排查 7.问题解决

大数据真好玩
Unix
发表了文章

Hbase WAL日志数据实时增量推送至Kafka

Hbase提供了跨集群的数据同步方式Replication,可通过自定义Replication Endpoint,把消息写入kafka,先来了解Hbase Re...

大数据真好玩
HBaseTDSQL MySQL 版KafkaRPC批量计算
发表了文章

「ClickHouse系列」ClickHouse中的物化视图详解

视图是由若干个字段以及若干条记录构成(也常称为虚标),它与表有很多相似的地方,视图中的数据源来自于原表,视图本身不存储数据,视图它保存的仅仅是一条select语...

大数据真好玩
数据库SQL存储
发表了文章

基于PushGateway+Prometheus+Grafana构建Flink实时监控体系

本文主要介绍将flink任务运行的metric发送到Prometheus,通过grafana报表工具展示。

大数据真好玩
https网络安全Flink大数据GitHub
发表了文章

数据质量监控框架及解决方案总结

随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据...

大数据真好玩
Apache大数据开源Python
发表了文章

ClickHouse 数据类型全解析及实际应用

基础类型只有数值、字符串和时间三种类型,没有 Boolean 类型,但可以使用整型的 0 或 1 替代。ClickHouse 的数据类型和常见的其他存储系统的数...

大数据真好玩
JavaIPv6编程算法TCP/IPPython

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券