大数据成神之路-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏成员

638

文章

1402516

阅读量

321

订阅数

Apache Hudi 使用文件聚类功能 (Clustering) 解决小文件过多的问题

windows flink 大数据 hive sql

本文详细阐述了在 “批处理后，流处理之前” 进行文件 Clustering 操作的方法。该方法可以将众多小文件合并成数量极少的大文件，从而防止过多小文件的产生。

王知无-import_bigdata

2022-11-11

1.2K0

Flink 细粒度资源管理新特性解读

flink 大数据 windows bash

ApacheFlink努力为所有现成的应用程序自动导出合理的默认资源需求。对于希望根据特定场景的知识微调资源消耗的用户，Flink提供细粒度资源管理。

王知无-import_bigdata

2022-06-05

8750

Flink SQL流式聚合Mini-Batch优化原理浅析

批量计算 flink 打包大数据 windows

流式聚合（streaming aggregation）是我们编写实时业务逻辑时非常常见的场景，当然也比较容易出现各种各样的性能问题。Flink SQL使得用户可以通过简单的聚合函数和GROUP BY子句实现流式聚合，同时也内置了一些优化机制来解决部分case下可能遇到的瓶颈。本文对其中常用的Mini-Batch做个简要的介绍，顺便从源码看一看它的实现思路。

王知无-import_bigdata

2022-03-11

1.1K0

Flink重点难点：Flink Table&SQL必知必会(一)

api flink 大数据 windows sql

Flink本身是批流统一的处理框架，所以Table API和SQL，就是批流统一的上层处理API。目前功能尚未完善，处于活跃的开发阶段。

王知无-import_bigdata

2021-09-22

2.1K0

一网打尽Flink中的时间、窗口和流Join

windows flink 大数据 java scala

首先，我们会学习如何定义时间属性，时间戳和水位线。然后我们将会学习底层操作process function，它可以让我们访问时间戳和水位线，以及注册定时器事件。接下来，我们将会使用Flink的window API，它提供了通常使用的各种窗口类型的内置实现。我们将会学到如何进行用户自定义窗口操作符，以及窗口的核心功能：assigners（分配器）、triggers（触发器）和evictors（清理器）。最后，我们将讨论如何基于时间来做流的联结查询，以及处理迟到事件的策略。

王知无-import_bigdata

2021-09-22

1.7K0

360度无死角 | Pulsar与Kafka对比全解析

网络安全 https apache windows kafka

本文分别从性能、架构和功能方面比较 Pulsar 和 Kafka 的区别，并且介绍 Pulsar 的用例、支持与社区等。

王知无-import_bigdata

2021-07-12

11.6K0

Flink会话窗口和定时器原理详解

windows processing flink 大数据

在我们使用Flink DataStream API编写业务代码时，aggregate()算子、AggregateFunction、KeyedProcessFunction是非常常用的。下面我们把这两个知识点详细的讲解一下。

王知无-import_bigdata

2021-04-21

2.2K0

实时方案之数据湖探究调研笔记

数据湖大数据存储 hive windows

数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前，搞清楚什么是数据湖，明确一个数据湖项目的基本组成，进而设计数据湖的基本架构，对于数据湖的构建至关重要。关于什么是数据湖？有不同的定义。

王知无-import_bigdata

2021-03-26

8030

基于Flink打造实时计算平台为企业赋能

flink sql api windows yarn

随着互联网技术的广泛使用，信息的实时性对业务的开展越来越重要，特别是业务的异常信息，没滞后一点带来的就是直接的经济损失。所以实时信息处理能力，越来越成为企业的重要竞争力之一。Flink作为业内公认的性能最好的实时计算引擎，以席卷之势被各大公司用来进处理实时数据。然而Flink任务开发成本高，运维工作量大，面对瞬息万变得业务需求，工程师往往是应接不暇。如果能有一套实时计算平台，让工程师或者业务分析人员通过简单的SQL或者拖拽式操作就可以创建Flink任务，无疑可以快速提升业务的迭代能力。

王知无-import_bigdata

2020-12-18

1.3K0

Apache Beam 大数据处理一站式分析

css 打包 windows 数据处理数据库

大数据处理其实经常被很多人低估，缺乏正确的处理体系，其实，如果没有高质量的数据处理流程，人工智能将只有人工而没有智能。现在的趋势是数据体量不断上涨，团队却低估了规模所带来的复杂度。大数据领域泰斗级人物Jesse Anderson曾做过研究，一个组织架构比较合理的人工智能团队，数据处理工程师需要占团队总人数的4/5，然而很多团队还没有认识到这点。大数据处理涉及大量复杂因素，而Apache Beam恰恰可以降低数据处理的难度，它是一个概念产品，所有使用者都可以根据它的概念继续拓展。

王知无-import_bigdata

2020-05-12

1.5K0

Structured Streaming | Apache Spark中处理实时数据的声明式API

spark api sql windows

随着实时数据的日渐普及，企业需要流式计算系统满足可扩展、易用以及易整合进业务系统。Structured Streaming是一个高度抽象的API基于Spark Streaming的经验。Structured Streaming在两点上不同于其他的Streaming API比如Google DataFlow。第一，不同于要求用户构造物理执行计划的API，Structured Streaming是一个基于静态关系查询（使用SQL或DataFrames表示）的完全自动递增的声明性API。第二，Structured Streaming旨在支持端到端实时的应用，将流处理与批处理以及交互式分析结合起来。我们发现，在实践中这种结合通常是关键的挑战。Structured Streaming的性能是Apache Flink的2倍，是Apacha Kafka 的90倍，这源于它使用的是Spark SQL的代码生成引擎。它也提供了丰富的操作特性，如回滚、代码更新、混合流\批处理执行。我们通过实际数据库上百个生产部署的案例来描述系统的设计和使用，其中最大的每个月处理超过1PB的数据。

王知无-import_bigdata

2020-01-14

1.9K0

State Processor API：如何读取，写入和修改 Flink 应用程序的状态

api flink 大数据编程算法 windows

过去无论是在生产中使用，还是调研 Apache Flink，总会遇到一个问题：如何访问和更新 Flink 保存点（savepoint）中保存的 state？Apache Flink 1.9 引入了状态处理器（State Processor）API，它是基于 DataSet API 的强大扩展，允许读取，写入和修改 Flink 的保存点和检查点（checkpoint）中的状态。

王知无-import_bigdata

2019-12-20

1.9K0

Flink滑动窗口原理与细粒度滑动窗口的性能问题

大数据 windows 存储编程算法

Flink的窗口机制是其底层核心之一，也是高效流处理的关键。Flink窗口分配的基类是WindowAssigner抽象类，下面的类图示出了Flink能够提供的所有窗口类型。

王知无-import_bigdata

2019-12-18

5.1K1

Apache Flink：Keyed Window与Non-Keyed Window

windows 大数据 unix

Apache Flink中，Window操作在流式数据处理中是非常核心的一种抽象，它把一个无限流数据集分割成一个个有界的Window（或称为Bucket），然后就可以非常方便地定义作用于Window之上的各种计算操作。本文我们主要基于Apache Flink 1.4.0版本，说明Keyed Window与Non-Keyed Window的基本概念，然后分别对与其相关的WindowFunction与WindowAllFunction的类设计进行分析，最后通过编程实践来应用。

王知无-import_bigdata

2019-08-06

1.4K0

最火的实时计算框架Flink和下一代分布式消息队列Pulsar的批流融合

大数据 apache windows 数据处理

Apache Flink 和 Apache Pulsar 的开源数据技术框架可以以不同的方式融合，来提供大规模弹性数据处理。Flink Forward San Francisco 2019 大会上郭斯杰发表演讲，介绍了 Flink 和 Pulsar 在批流应用程序的融合情况。这篇文章会简要介绍 Apache Pulsar 及其与其他消息系统的不同之处，并讲解如何融合 Pulsar 和 Flink 协同工作，为大规模弹性数据处理提供无缝的开发人员体验。

王知无-import_bigdata

2019-07-09

1.4K0

Apache Kafka简单入门

windows 大数据 api kafka 消息队列 CMQ 版

为了理解Kafka是如何做到以上所说的功能，从下面开始，我们将深入探索Kafka的特性。

王知无-import_bigdata

2019-05-17

8060

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态