大数据技术与应用实战

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

由于容器化易管理、易扩容等优点，越来越多的组件都开始迁移到容器上，k8s作为容器化的事实标准，受到了越来越多的人的青睐，由于我们目前很多web开发的组件也是部署到k8s上的，为了后续运维更加方便，我把我们用到的一些大数据组件都迁移到了k8s，包括hive、trino、flink、clickhouse等等。

基于streamx闲聊flink在k8s上的实践

本文主要讲解一下iceberg数据湖在微软云azure上面的部署方案，采用的方案是通过hadoop的api写入azure，和之前写入hdfs没有太大区别，只需要配置一下hadoop的配置文件即可。iceberg这里不需要做任何改动。目前支持Azure Blob Storage 和 Azure Data Lake Storage Gen2。此外着重说明一下，azure仅支持hadoop 3.2 以上的版本，否则的会报错 java.io.ioexception no filesystem for scheme : abfss.

Iceberg在微软云azure上的部署实践

flink支持多种部署模式，比如standalone、sesson、per job、application，一般在生产环境我们都是将flink程序部署到k8s或者yarn等资源管理器上。目前k8s部署模式暂时不支持per job模式。不过由于k8s部署flink集群相对yarn要落后一些，是在最近几个版本才慢慢完善的，所以我猜测市面上很多公司还是以yarn为主，逐渐尝试k8s。

Flink 1.13 在Native  k8s的部署实践

目前我们的大数据系统里，主要承接的业务是部门内的一些业务日志数据的统计、分析等，比如网关日志数据，服务器监控数据，k8s容器的相关日志数据，app的打点日志等。主要的流任务是flink任务是消费kafka的数据，经过各种处理之后通过flink sql或者flink jar实时写入hive，由于业务对数据的实时性要求比较高，希望数据能尽快的展示出来，所以我们很多的flink任务的checkpoint设置为1分钟，而数据格式采用的是orc格式，所以不可避免的出现了一个在大数据处理领域非常常见但是很麻烦的问题，即hdfs小文件问题。

Flink集成iceberg在生产环境中的实践

在传统的实时数仓中，由于列式存储相对行式存储有较高的查询性能，我们一般采用orc，parquet数据格式，但是这种列式格式无法追加，流式数据又不能等候太长时间，等到文件够了一个hdfs block块大小再写入，所以不可避免的产生了一个令人头大的问题，即小文件问题，由于使用小文件会增加namenode的压力，并且影响查询性能，所以我们在使用流式数据入库的时候一般会对小文件进行合并处理。

Flink集成iceberg数据湖之合并小文件

随着大数据处理结果的实时性要求越来越高，越来越多的大数据处理从离线转到了实时，其中以flink为主的实时计算在大数据处理中占有重要地位。

Flink集成数据湖之实时数据写入iceberg

今天我们主要来讲一个很简单但是很常见的需求，实时计算出网站当天的pv值，然后将结果实时更新到mysql数据库，以供前端查询显示。

flink sql实时计算当天pv写入mysql

CDC,Change Data Capture,变更数据获取的简称，使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游，供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等.

深入解读flink sql cdc的使用以及源码分析

对于web网站，我们一般会有这样的需求，实时的计算出来当天网站的uv，尽可能快的展示出来。今天我们就讲一下基于java的set集合做一下实时uv的统计。

flink实战教程-使用set实时计算当天网站uv

SQL，Structured Query Language:结构化查询语言，作为一个通用、流行的查询语言，不仅仅是在传统的数据库，在大数据领域也变得越来越流行，hive、spark、kafka、flink等大数据组件都支持sql的查询，使用sql可以让一些不懂这些组件原理的人，轻松的来操作，大大的降低了使用的门槛，今天我们先来简单的讲讲在flink的流处理中如何使用sql.

​flink实战-flink streaming sql 初体验

今天我们主要讲一下如何通过api的方式来停止一个通过per job模式部署在yarn集群上的任务。

flink实战-实时计算平台通过api停止流任务

最近由于阿里的fastjson频繁爆出安全漏洞，为了避免后续升级上线的烦恼，决定弃用fastjson，使用Jackson，把现有项目中的fastjson都换成了Jackson，由于很多写法上有些不同，所以在这里把这些改过的东西做一下笔记。

放弃fastjson，拥抱Jackson

在电商领域会有这么一个场景，如果用户买了商品，在订单完成之后，24小时之内没有做出评价，系统自动给与五星好评，我们今天主要使用flink的定时器来简单实现这一功能。

Flink实战-定时器实现已完成订单自动五星好评

对于下面的nginx日志access.log，用脚本分析出访问ip的Top 10。
其实这个题不难，但是考察了几个常用的shell 命令，awk、uniq、sort、head，我觉得对于做大数据开发、运维、数仓等来说都是应该必备的。

聊聊AWK命令的那些事

在大数据的实时处理中，实时的大屏展示已经成了一个很重要的展示项，比如最有名的双十一大屏实时销售总价展示。除了这个，还有一些其他场景的应用，比如我们在我们的后台系统实时的展示我们网站当前的pv、uv等等，其实做法都是类似的。

flink实战-模拟简易双11实时统计大屏

随着这几年大数据技术的迅猛发展，人们对于处理数据的要求也越来越高，由最早的MapReduce，到后来的hive、再到后来的spark，为了获取更快、更及时的结果，计算模型也在由以前的T+1的离线数据慢慢向流处理转变，比如每年双十一阿里的实时大屏，要求秒级的输出结果；再比如当我们以100迈的速度开车的时候，我们希望地图导航软件能给我们毫秒级延迟的导航信息。

大数据流处理-我为什么选择Apache Flink

今天我们主要聊聊flink中的一个接口org.apache.flink.api.common.functions.AggregateFunction，这个类可以接在window流之后，做窗口内的统计计算。

flink实战-聊一聊flink中的聚合算子

紧接着上一篇文章【FLINK实战-使用CEP进行网站监控报警和报警恢复】，上一篇主要讲了怎么对数据流做监控报警，但是实际生产环境中，可能我们对这个报警的阈值设置成多大也没有一个准，可能需要根据经验不断的来修改，所以就涉及了可能需要不断的修改这个报警的阈值，但是如果每次修改了之后，都通过重启flink程序来实现，这个成本就有点高了，所以我们这次主要是讲解一下，如何使用flink的广播动态的更新配置来设置这个报警的阈值.

flink实战-使用广播实现报警阈值动态更新

上一篇介绍了使用sql将流式数据写入文件系统，这次我们来介绍下使用sql将文件写入hive,对于如果想写入已经存在的hive表，则至少需要添加以下两个属性.  写入hive底层还是和写入文件系统一样的，所以对于其他具体的配置参考上一篇.

flink教程-flink 1.11 使用sql将流式数据写入hive

原文：https://www.ververica.com/blog/manage-rocksdb-memory-size-apache-flink
翻译：zhangjun，英语水平不太好，如有问题，请大家不吝赐教

如何在Apache Flink中管理RocksDB内存大小

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据技术与应用实战专栏，为你提供了大数据技术与应用实战的相关文章，致力于帮助开发者快速成长与发展。

大数据技术与应用实战

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐