开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在应用层配置Flink作业的参数？

Flink是一个开源的分布式流处理框架，用于处理和分析大规模实时数据流。在应用层配置Flink作业的参数可以通过以下几种方式实现：

配置文件：Flink提供了一个配置文件flink-conf.yaml，可以在该文件中设置作业的参数。通过编辑配置文件，可以配置作业的并行度、资源分配、重启策略、checkpoint配置等。可以使用任意文本编辑器打开该文件进行修改。具体的参数配置项和取值范围可以参考Flink官方文档中的相关说明。
命令行参数：可以在启动Flink作业时通过命令行参数来配置作业的参数。例如，可以使用-p参数指定作业的并行度，使用-c参数指定作业的入口类，使用-s参数指定作业的执行模式等。具体的命令行参数可以通过执行flink run --help来查看。
程序化配置：在Flink应用程序中，可以通过编程的方式来配置作业的参数。Flink提供了丰富的API和类来管理作业的配置。可以使用ExecutionConfig、StreamExecutionEnvironment等类来设置和获取作业的参数。例如，可以使用setParallelism方法设置作业的并行度，使用setRestartStrategy方法设置作业的重启策略，使用setCheckpointConfig方法设置作业的checkpoint配置等。

无论采用哪种方式，都需要根据具体的应用场景和需求来配置Flink作业的参数。在参数配置过程中，需要注意参数的取值范围、性能影响和资源消耗等因素。同时，根据具体的业务需求，可以结合腾讯云提供的相应服务来增强Flink作业的功能和性能，例如使用腾讯云的对象存储COS来存储作业的输入输出数据，使用腾讯云的弹性伸缩服务来调整作业的计算资源等。

参考链接：

Flink官方文档：https://flink.apache.org/
腾讯云对象存储COS产品介绍：https://cloud.tencent.com/product/cos
腾讯云弹性伸缩产品介绍：https://cloud.tencent.com/product/as

相关搜索:Apache Flink:如何在不重新启动作业的情况下重新加载更新的jar？flink作业的最佳heartbeat.timeout配置如何在Apache Flink中降低接收配置单元数据的延迟？如何在crontab中配置project和virtualenv路径来调度Django中的作业？如何在databricks作业中传递和获取传递的参数如何在Google App Engine中根据用户参数安排重复的作业或任务？如何在jenkins中使用if-else条件(在下游作业中)检查从上游作业传递过来的参数？如何在kerberos密码更改的情况下实现长时间运行的Flink作业？如何在Spinnaker管道的配置阶段访问参数值？如何在不建立上游作业的情况下将参数从上游作业传递到下游作业

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Flink成为字节跳动流处理唯一标准

场景描述：本文将为大家展示字节跳动公司将 Jstorm 任务迁移到 Apache Flink 上的整个过程以及后续计划。你可以借此了解到字节跳动公司引入 Apache Flink 的背景，Apache Flink 集群的构建过程，如何兼容以前的 Jstorm 作业以及基于 Apache Flink 构建一个流式任务管理平台，本文将一一为你揭开这些神秘的面纱。

04

实时数仓 | 你想要的数仓分层设计与技术选型

数据仓库概念的提出都要追溯到上世纪了，我们认为在大数据元年之前的数仓可以称为传统数仓，而后随着海量数据不断增长，以及Hadoop生态不断发展，主要基于Hive/HDFS的离线数仓架构可以兴起并延续至今，近几年随着Storm/Spark（Streaming）/Flink等实时处理框架的更新迭代乃至相互取代，各厂都在着力构建自己的实时数仓，特别是近两年，随着Flink声名鹊起，实时数仓更是名声在外并且还在不断快速发展。

05

【Flink】第二十五篇：源码角度分析作业提交逻辑

【Flink】第四篇：【迷思】对update语义拆解D-、I+后造成update原子性丢失

03

美团点评基于 Flink 的实时数仓建设实践

近些年，企业对数据服务实时化服务需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景，介绍了美团如何通过 Flink 引擎构建实时数据仓库，从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框架 Flink 与 Storm 的性能对比》，对 Flink 和 Storm 两个引擎的计算性能进行了比较。本文主要阐述使用 Flink 在实际数据生产上的经验。

03

美团点评基于 Flink 的实时数仓建设实践

近些年，企业对数据服务实时化服务需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景，介绍了美团如何通过 Flink 引擎构建实时数据仓库，从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框架 Flink 与 Storm 的性能对比》，对 Flink 和 Storm 两个引擎的计算性能进行了比较。本文主要阐述使用 Flink 在实际数据生产上的经验。

02

专治数仓疑难杂症！美团点评 Flink 实时数仓应用经验分享

摘要：本文根据 Apache Flink 系列直播整理而成，由美团点评数据系统研发工程师黄伟伦老师分享。主要内容如下：

01

美团点评基于 Flink 的实时数仓平台实践

摘要：数据仓库的建设是“数据智能”必不可少的一环，也是大规模数据应用中必然面临的挑战，而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中，美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。

03

Flink重点难点：Flink任务综合调优(Checkpoint/反压/内存)

我们在Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交一文中对Flink的Checkpoint做过详细的介绍。

03

大数据云原生系列| 微信 Flink on Kubernetes 实战总结

涂小刚，微信高级开发工程师，负责微信大数据平台开发及建设。王玉君，腾讯云后台高级开发工程师，负责腾讯云原生系统开发及建设。前言架构转型，拥抱云原生服务生态当前微信内部的大数据计算平台是基于自研的 Yard 资源调度系统[1]来建设，Yard 的设计初衷除了提供在线服务资源隔离外，另一方面是为了提高在线服务机器的整体资源利用率，其核心策略是在机器空闲时能在上面跑一些大数据离线任务。但是对接业界各种大数据计算框架（例如 Hadoop MapReduce、Spark、Flink 等）都需要专门定制化开

02

使用Flink进行实时日志聚合：第二部分

我们正在继续有关在Flink的帮助下实现实时日志聚合的博客系列。在本系列的《使用Flink进行实时日志聚合：第一部分》中，我们回顾了为什么从长期运行的分布式作业中实时收集和分析日志很重要。我们还研究了一种非常简单的解决方案，仅使用可配置的附加程序将日志存储在Kafka中。提醒一下，让我们再次检查管道

02

B站基于Hudi+Flink打造流式数据湖的落地实践

上图展示了当前B站实时数仓的一个简略架构，大致可以分为采集传输层、数据处理层，以及最终的AI和BI应用层。为保证稳定性，数据处理层是由以实时为主，以离线兜底的两条链路组成，即我们熟知的批流双链路。

05

日均百亿级日志处理：微博基于Flink的实时计算平台建设

黄鹏，微博广告实时数据开发工程师，负责法拉第实验平台数据开发、实时数据关联平台、实时算法特征数据计算、实时数据仓库、实时数据清洗组件开发工作。

02

基于Flink+Hive构建流批一体准实时数仓

基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性，但由于它是离线的，延时很大。在一些对延时要求比较高的场景，需要另外搭建基于 Flink 的实时数仓，将链路延时降低到秒级。但是一套离线数仓加一套实时数仓的架构会带来超过两倍的资源消耗，甚至导致重复开发。

03

Prometheus简易入门

APM系统即Application Performance Management应用性能管理，目的是对企业的关键业务系统进行实时性能监控和故障管理，主要有以下三个维度：日志聚合Logs、业务指标Metrics、链路跟踪Traces。

03

【流计算 Oceanus】巧用 Flink 实现高性能 ClickHouse 实时数仓

Apache Flink 是流式计算处理领域的领跑者。它凭借易用、高吞吐、低延迟、丰富的算子和原生状态支持等优势，多方位领先同领域的开源竞品。

09

Flink 在中泰证券的实践与应用

摘要：本文整理自中泰证券大数据中心实时计算平台架构师连序全，在 Flink Forward Asia 2022 行业案例专场的分享。本篇内容主要分为四个部分：

01

Flink 数据湖助力美团数仓增量生产

整个架构图分为三层，从下往上看，最下面一层是数据安全，包括受限域认证系统、加工层权限系统，应用层权限系统，安全审计系统，来保证最上层数据集成与处理的安全；

02

快手实时数仓保障体系研发实践

摘要：本文整理自快手实时计算数据团队技术专家李天朔在 Flink Forward Asia 2021 实时数仓专场的演讲。主要内容包括：

02

5年迭代5次，抖音推荐系统演进历程

作者 | 郭文飞编辑 | 蔡芳芳 2021 年，字节跳动旗下产品总 MAU 已超过 19 亿。在以抖音、今日头条、西瓜视频等为代表的产品业务背景下，强大的推荐系统显得尤为重要。Flink 提供了非常强大的 SQL 模块和有状态计算模块。目前在字节推荐场景，实时简单计数特征、窗口计数特征、序列特征已经完全迁移到 Flink SQL 方案上。结合 Flink SQL 和 Flink 有状态计算能力，我们正在构建下一代通用的基础特征计算统一架构，期望可以高效支持常用有状态、无状态基础特征的生产。

02

Flink从1.7到1.12版本升级汇总

最进再看官方flink提供的视频教程,发现入门版本因为时间关系都是基于1.7.x讲解的. 在实际操作中跟1.12.x版本还是有差距的, 所以整理一下从1.7 版本到1.12版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数.

02

流计算Oceanus | 巧用Flink构建高性能ClickHouse实时数仓

一、概述 Apache Flink是流式计算处理领域的领跑者。它凭借易用、高吞吐、低延迟、丰富的算子和原生状态支持等优势，多方位领先同领域的开源竞品。同样地，ClickHouse是OLAP在线分析领域的一颗冉冉新星，它拥有极其出众的查询性能，以及丰富的分析函数，可以助力分析师灵活而迅速地挖掘海量数据的价值。然而金无足赤，人无完人，每个组件都有自己擅长和不擅长的方面。为了实现构造高性能实时数仓的目标，接下来的文章会介绍如何将它们巧妙地结合起来，取长补短，最终实现“效率翻倍，快乐加倍”的梦想。二

03

流计算 Oceanus | 巧用 Flink 构建高性能 ClickHouse 实时数仓

作者：董伟柯——腾讯云大数据产品中心高级工程师概述 Apache Flink 是流式计算处理领域的领跑者。它凭借易用、高吞吐、低延迟、丰富的算子和原生状态支持等优势，多方位领先同领域的开源竞品。同样地，ClickHouse 是 OLAP 在线分析领域的一颗冉冉新星，它拥有极其出众的查询性能，以及丰富的分析函数，可以助力分析师灵活而迅速地挖掘海量数据的价值。然而金无足赤，人无完人，每个组件都有自己擅长和不擅长的方面。为了实现构造高性能实时数仓的目标，接下来的文章会介绍如何将它们巧妙地结合起来，取长补

03

OPPO数据中台之基石：基于Flink SQL构建实时数据仓库

本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议，分享嘉宾张俊，目前担任 OPPO 大数据平台研发负责人，也是 Apache Flink contributor。本文主要内容如下： - OPPO 实时数仓的演进思路； - 基于 Flink SQL 的扩展工作； - 构建实时数仓的应用案例； - 未来工作的思考和展望。

02

Spark/Flink/CarbonData技术实践最佳案例解析

当前无论是传统企业还是互联网公司对大数据实时分析和处理的要求越来越高，数据越实时价值越大，面向毫秒~ 秒级的实时大数据计算场景，Spark 和 Flink 各有所长。CarbonData 是一种高性能大数据存储方案，已在 20+ 企业生产环境上部署应用，其中最大的单一集群数据规模达到几万亿。

02

Flink内存配置指南

Apache Flink 基于 JVM 的高效处理能力，依赖于其对各组件内存用量的细致掌控。考虑到用户在 Flink 上运行的应用的多样性，尽管社区已经努力为所有配置项提供合理的默认值，仍无法满足所有情况下的需求。为了给用户生产提供最大化的价值， Flink 允许用户在整体上以及细粒度上对集群的内存分配进行调整。

03

Flink工作中常用__Kafka SourceAPI

https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/connectors/index.html

02

进击大数据系列（九）Hadoop 实时计算流计算引擎 Flink

Apache Flink 是一个框架和分布式处理引擎，用于对无边界和有边界的数据流进行有状态的计算。Flink被设计为可以在所有常见集群环境中运行，并能以内存速度和任意规模执行计算。目前市场上主流的流式计算框架有Apache Storm、Spark Streaming、Apache Flink等，但能够同时支持低延迟、高吞吐、Exactly-Once（收到的消息仅处理一次）的框架只有Apache Flink。

02

Flink 内存配置学习总结

Apache Flink通过严格控制其各种组件的内存使用，在JVM之上提供高效的工作负载。

07

美团基于 Flink 的实时数仓平台建设新进展

摘要：本文整理自美团实时数仓平台负责人姚冬阳在 Flink Forward Asia 2021 实时数仓专场的演讲。主要内容包括：

02

袋鼠云：基于Flink构建实时计算平台的总体架构和关键技术点

数栈是云原生—站式数据中台PaaS，我们在github和gitee上有一个有趣的开源项目：FlinkX，FlinkX是一个基于Flink的批流统一的数据同步工具，既可以采集静态的数据，也可以采集实时变化的数据，是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star！star！star！

01

腾讯云原生实时数仓建设实践

作者：龙逸尘，腾讯 CSIG 高级工程师腾讯云原生实时数仓建设实践实时数仓面临的挑战实时数仓被广泛应用于腾讯各大业务，涉及的平台众多，从统计信息中可以看出，集群规模庞大，数据量极大。复杂的使用场景和超大的数据量，导致我们在实时数仓的建设与使用过程中遇到许多挑战。时效性数仓使用者对时效性有非常强烈的诉求：希望查询响应更快，看板更新更及时，指标开发更快完成。因为时效性越高，数据价值也就越高。如何保障数仓的时效性是首要难题。架构复杂度如何在保障时效性的同时，降低架构复杂度以减少开发和维护成本，

02

Dinky在Doris实时整库同步和模式演变的探索实践

摘要：本文总结了 Dinky 社区在 Doris Summit 2022 上分享的《Dinky 在Doris实时整库同步和模式演变的探索实践》，其分享主要分为四个章节，内容包括：

04

Flink基础教程

第 1 章　为何选择 Flink 许多情况下，人们希望用低延迟或者实时的流处理来获得数据的高时效性，前提是流处理本身是准确且高效的优秀的流处理技术可以容错，而且能保证exactlyonce2 Storm提供了低延迟的流处理，但是它为实时性付出了一些代价：很难实现高吞吐，并且其正确性没能达到通常所需的水平。换句话说，它并不能保证exactlyonce；即便是它能够保证的正确性级别，其开销也相当大图12：Flink的一个优势是，它拥有诸多重要的流式计算功能。其他项目为了实现这些功能，都不得不付出代价。比如，

01

Flink Checkpoint机制原理剖析与参数配置

在Flink状态管理详解这篇文章中，我们介绍了Flink的状态都是基于本地的，而Flink又是一个部署在多节点的分布式引擎，分布式系统经常出现进程被杀、节点宕机或网络中断等问题，那么本地的状态在遇到故障时如何保证不丢呢？Flink定期保存状态数据到存储上，故障发生后从之前的备份中恢复，整个被称为Checkpoint机制，它为Flink提供了Exactly-Once的投递保障。本文将介绍Flink的Checkpoint机制的原理。本文会使用多个概念：快照（Snapshot）、分布式快照（Distributed Snapshot）、检查点（Checkpoint）等，这些概念均指的是Flink的Checkpoint机制，读者可以将这些概念等同看待。

03

SeaTunnel 连接器V1到V2的架构演进与探究

整个SeaTunnel设计的核心是利用设计模式中的控制翻转或者叫依赖注入，主要概括为以下两点：

01

前生今世，未来可期，Dlink 年终总结

来到了 2021 年的最后一天，自 6 月 6 日开源立项到今天，历时 6 个月，Dlink 终于崭露头角。而 0.5 版本也将于一月中旬与大家相见。本文将带您领略 Dlink 的由来、发展、应用及前景，那我们就直接开始吧！

02

美团外卖实时数仓方案整理

实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是：一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合，同时满足实时和准实时业务场景。两者合理分工，互相补充，形成易开发、易维护且效率高的流水线，兼顾开发效率与生产成本，以较好的投入产出比满足业务的多样性需求。

03

美团外卖实时数仓建设实践

导读：本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。在实践中，我们总结的最佳实践是：一个通用的实时生产平台 + 一个通用交互式实时分析引擎相互配合同时满足实时和准实时业务场景。两者合理分工，互相补充，形成易于开发、易于维护、效率最高的流水线，兼顾开发效率与生产成本，以较好的投入产出比满足业务多样需求。

01

Flink 网络传输优化技术

作为工业级的流计算框架，Flink 被设计为可以每天处理 TB 甚至 PB 级别的数据，所以如何高吞吐低延迟并且可靠地在算子间传输数据是一个非常重要的课题。此外，Flink 的数据传输还需要支持框架本身的特性，例如反压和用于测量延迟的 latency marker。在社区不断的迭代中，Flink 逐渐积累了一套值得研究的网络栈（Network Stack），本文将详细介绍 Flink Network Stack 的实现细节以及关键的优化技术。

03

干货 | Flink Connector 深度解析

作者介绍：董亭亭，快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学，曾就职于奇虎 360、58 集团。主要研究领域包括：分布式计算、调度系统、分布式存储等系统。

04

2021年大数据Flink（十五）：流批一体API Connectors Kafka

Flink 里已经提供了一些绑定的 Connector，例如 kafka source 和 sink，Es sink 等。读写 kafka、es、rabbitMQ 时可以直接使用相应 connector 的 api 即可，虽然该部分是 Flink 项目源代码里的一部分，但是真正意义上不算作 Flink 引擎相关逻辑，并且该部分没有打包在二进制的发布包里面。所以在提交 Job 时候需要注意， job 代码 jar 包中一定要将相应的 connetor 相关类打包进去，否则在提交作业时就会失败，提示找不到相应的类，或初始化某些类异常。

02

深入解读 Flink 资源管理机制

摘要：本文根据 Apache Flink 系列直播整理而成，由阿里巴巴高级开发工程师宋辛童分享。文章主要从基本概念、当前机制与策略、未来发展方向等三个方面帮助开发者深入理解 Flink 的资源管理机制。

03

Flink RocksDB State Backend：when and how

流处理应用程序通常是有状态的，“记住”已处理事件的信息，并使用它来影响进一步的事件处理。在Flink中，记忆的信息（即状态）被本地存储在配置的状态后端中。为了防止发生故障时丢失数据，状态后端会定期将其内容快照保存到预先配置的持久性存储中。该RocksDB[1]状态后端（即RocksDBStateBackend）是Flink中的三个内置状态后端之一。这篇博客文章将指导您了解使用RocksDB管理应用程序状态的好处，解释何时以及如何使用它，以及清除一些常见的误解。话虽如此，这不是一篇说明RocksDB如何深入工作或如何进行高级故障排除和性能调整的博客文章；如果您需要任何有关这些主题的帮助，可以联系Flink用户邮件列表[2]。

03

Flink在美团的应用与实践听课笔记

原始视频视频资源已经在优酷公开：2018.8.11 Flink China Meetup·北京站-Flink在美团的应用与实践

03

Flink面试通关手册「160题升级版」

主要是当Flink开启Checkpoint的时候，会往Source端插入一条barrir，然后这个barrir随着数据流向一直流动，当流入到一个算子的时候，这个算子就开始制作checkpoint，制作的是从barrir来到之前的时候当前算子的状态，将状态写入状态后端当中。然后将barrir往下流动，当流动到keyby 或者shuffle算子的时候，例如当一个算子的数据，依赖于多个流的时候，这个时候会有barrir对齐，也就是当所有的barrir都来到这个算子的时候进行制作checkpoint，依次进行流动，当流动到sink算子的时候，并且sink算子也制作完成checkpoint会向jobmanager 报告 checkpoint n 制作完成。

04

Doris + Flink + DolphinScheduler + Dinky 构建开源数据平台

本文整理自 Dinky 实时计算平台 Maintainer 亓文凯老师在 Apache Doris & Apache SeaTunnel 联合 meetup 的实践分享，通过 Doris + Flink + DolphinScheduler + Dinky 构建开源数据平台。

07

菜鸟供应链实时数仓的架构演进及应用场景

摘要：在 Flink Forward Asia 大会实时数仓专场中，菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进，以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。

01

数据湖｜Flink + Iceberg 全场景实时数仓的建设实践

摘要：Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以 Iceberg、Hudi、Delta 为代表的解决方案应运而生，Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表，并提供对 Apache Flink 1.11.x 的集成支持。

04

Flink 细粒度资源管理新特性解读

ApacheFlink努力为所有现成的应用程序自动导出合理的默认资源需求。对于希望根据特定场景的知识微调资源消耗的用户，Flink提供细粒度资源管理。

07

Flink on Zeppelin 作业管理系统实践

在数仓ETL、实时计算的场景下，我们基于Flink SQL批流一体的框架进行了一定规模的作业迁移。在研发作业管理系统中，我们引入Apache Zeppelin组件作为Flink SQL作业提交客户端，Flink 批流作业可视化预览的核心组件。在一年多时间的产线实践中，我们对作业提交的方式策略进行了几次演进，目前在跑作业规模Flink Batch 任务日均运行超5000次，流作业500+，均稳定运行。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭