开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

什么是jobConf类?它能做什么？

jobConf类是Hadoop中的一个配置类，用于配置和管理MapReduce作业的各种参数和属性。它是一个用于描述和控制作业运行的配置对象。

jobConf类可以用于设置和获取作业的各种属性，如输入输出路径、作业名称、Mapper和Reducer类、输入输出格式、分区器、排序器、压缩方式等。通过配置jobConf类，可以对作业进行灵活的定制和调优，以满足不同的需求。

jobConf类的主要作用包括：

配置作业的输入和输出路径：可以通过设置jobConf对象的setInputPath和setOutputPath方法来指定作业的输入和输出路径。
配置作业的Mapper和Reducer类：可以通过设置jobConf对象的setMapperClass和setReducerClass方法来指定作业的Mapper和Reducer类。
配置作业的输入和输出格式：可以通过设置jobConf对象的setInputFormat和setOutputFormat方法来指定作业的输入和输出格式。
配置作业的其他属性：可以通过设置jobConf对象的各种set方法来配置作业的其他属性，如分区器、排序器、压缩方式等。

jobConf类的应用场景包括：

大数据处理：通过配置jobConf类，可以对大数据作业进行灵活的配置和调优，以提高作业的性能和效率。
数据分析：通过配置jobConf类，可以对数据分析作业进行定制化的配置，以满足不同的分析需求。
日志处理：通过配置jobConf类，可以对日志处理作业进行灵活的配置，以提取和分析日志数据。

腾讯云相关产品和产品介绍链接地址：

腾讯云Hadoop：https://cloud.tencent.com/product/emr
腾讯云大数据计算服务：https://cloud.tencent.com/product/dc
腾讯云数据仓库服务：https://cloud.tencent.com/product/dws

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

MapReduce数据流

MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定“标识物”与其关联。因此，任意的mapper都可以处理任意的输入文件。每一个mapper会加载一些存储在运行节点本地的文件集来进行处理（译注：这是移动计算，把计算移动到数据所在节点，可以避免额外的数据传输开销）。

02

Hadoop使用学习笔记（3）

我们先用老版本的API编写，下一篇会用新的API，并解释区别：环境配置：提交Job，开发IDE所在机器环境：Windows 7，4C8G，IntelliJ IDEA 15. Hadoop集群环境：第一篇中已经提到，Linux环境的集群。

01

Hadoop（十七）之MapReduce作业配置与Mapper和Reducer类

前言　　前面一篇博文写的是Combiner优化MapReduce执行，也就是使用Combiner在map端执行减少reduce端的计算量。一、作业的默认配置　　MapReduce程序的默认配置

07

Hadoop（十七）之MapReduce作业配置与Mapper和Reducer类

前面一篇博文写的是Combiner优化MapReduce执行，也就是使用Combiner在map端执行减少reduce端的计算量。

02

腾讯云基于Alluxio优化计算存储分离架构的最佳实践

导语 | 随着企业大数据规模和应用的增长和发展，计算与存储分离的架构渐渐成为主流，它解决了计算量和存储量不匹配问题，实现了算力的按需使用，但也引来了一些新的问题。腾讯云EMR团队与Alluxio社区合作，探索出了开箱即用的计算存储分离优化版本，大幅优化网络带宽，带宽削峰20%-50%，节省总带宽10%-50%，同时能在IO密集型场景提升性能5%-40%，下面就让我们来一探究竟。一、当前大数据挑战近年来，随着大数据规模的增长，以及大数据应用的发展，大数据技术的架构也在持续演进。早期的技术架构是计

03

基于Alluxio优化大数据计算存储分离架构的最佳实践

近年来，随着大数据规模的增长，以及大数据应用的发展，大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合，计算和存储资源一体化存在以下明显的挑战：

05

基于Alluxio优化大数据计算存储分离架构的最佳实践

近年来，随着大数据规模的增长，以及大数据应用的发展，大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合，计算和存储资源一体化存在以下明显的挑战：

Python API 操作Hadoop hdfs详解

由于是windows环境（linux其实也一样），只要有pip或者setup_install安装起来都是很方便的

01

MapReduce WordCount 单词计数

实验环境系统版本：Centos 7.5 Hadoop版本：Apache Hadoop 2.7.3 1. 简述 Hadoop将输入数据切分成若干个输入分片(input split)，并将每个split交给一个MapTask处理； Map Task不断的从对应的split中解析出一个个key/value，并调用map()函数处理，处理完之后根据Reduce Task个数将结果分成若干个分片(partition)写到本地磁盘；同时，每个Reduce Task从每个Map Task上读取属于自己的那个part

03

Flink 实践教程-入门（8）：简单 ETL 作业

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本示例使用流计算 Oceanus 平台的 ETL 功能，将 PostgreSQL 数据取出，经过时间转换函数处理后存入 PostgreSQL 中。用户无需编写

01

【上进小菜猪】使用Ambari提高Hadoop集群管理和开发效率:提高大数据应用部署和管理效率的利器

Hadoop是一种开源的分布式处理框架，用于在一组低成本硬件的集群上存储和处理大规模数据集。Ambari是一种基于Web的管理工具，用于轻松管理和监控Hadoop集群。在本文中，我们将探讨如何使用Ambari在Hadoop集群上运行应用程序，包括编写示例代码并将其部署到集群中。

02

Flink 实践教程：入门（3）：读取 MySQL 数据

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将为您详细介绍如何取 MySQL 数据，经过流计算 Oceanus 实时计算引擎分析，输出数据到日志（Logger Sink）当中。前置准备创建流计算

03

Flink 实践教程-入门（10）：Python作业的使用

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将通过一个处理数据后存入 MySQL 的作业示例，为您详细介绍如何使用 PyFlink。前置准备创建流计算 Oceanus 集群进入 Oceanu

03

实时监控：基于流计算 Oceanus ( Flink ) 实现系统和应用级实时监控

---- 作者：吴云涛，腾讯 CSIG 高级工程师本文描述了如何使用腾讯云大数据组件来完成实时监控系统的设计和实现，通过实时采集并分析云服务器（CVM）及其 App 应用的 CPU和内存等资源消耗数据，以短信、电话、微信消息等方式实时反馈监控告警信息，高效地保障系统稳健运行。运用云化的 Kafka、Flink、ES 等组件，大大减少了开发运维人员的投入。一、解决方案描述（一）概述本方案结合腾讯云 CKafka、流计算 Oceanus (Flink)、 Elasticsearch、Promethe

03

实时监控：基于流计算 Oceanus ( Flink ) 实现系统和应用级实时监控

---- 作者：吴云涛，腾讯 CSIG 高级工程师本文描述了如何使用腾讯云大数据组件来完成实时监控系统的设计和实现，通过实时采集并分析云服务器（CVM）及其 App 应用的 CPU和内存等资源消耗数据，以短信、电话、微信消息等方式实时反馈监控告警信息，高效地保障系统稳健运行。运用云化的 Kafka、Flink、ES 等组件，大大减少了开发运维人员的投入。一、解决方案描述（一）概述本方案结合腾讯云 CKafka、流计算 Oceanus (Flink)、 Elasticsearch、Promethe

02

Flink 实践教程-进阶（2）：复杂格式数据抽取

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将为您详细介绍如何实时获取 CKafka 中的 JSON 格式数据，经过数据抽取、平铺转换后存入 MySQL 中。前置准备创建流计算 Oceanus

02

MapReduce设计模式

一：概要模式 1：简介概要设计模式更接近简单的MR应用，因为基于键将数据分组是MR范型的核心功能，所有的键将被分组汇入reducer中本章涉及的概要模式有数值概要（numerical summarization），倒排索引（inverted index），计数器计数（counting with counter）2：概要设计模式包含 2.1：关于Combiner和paritioner combiner：reducer之前调用reducer函数，对数据进行聚合，极大的减少通过网络传输到reduce

05

Hadoop-2.4.1学习之如何确定Mapper数量

MapReduce框架的优势是可以在集群中并行运行mapper和reducer任务，那如何确定mapper和reducer的数量呢，或者说Hadoop如何以编程的方式控制作业启动的mapper和reducer数量呢？在《Hadoop-2.4.1学习之Mapper和Reducer》中曾经提及建议reducer的数量为(0.95~1.75 ) * 节点数量 * 每个节点上最大的容器数，并可使用方法Job.setNumReduceTasks(int)，mapper的数量由输入文件的大小确定，且没有相应的setNumMapTasks方法，但可以通过Configuration.set(JobContext.NUM_MAPS, int)设置，其中JobContext.NUM_MAPS的值为mapreduce.job.maps，而在Hadoop的官方网站上对该参数的描述为与MapReduce框架和作业配置巧妙地交互，并且设置起来更加复杂。从这样一句含糊不清的话无法得知究竟如何确定mapper的数量，显然只能求助于源代码了。

02

大数据产品双月刊 | 5-6月

本期热点产品弹性 MapReduce 本期腾讯云EMR于作业诊断能力重磅增强，通过控制台提供用户泛hadoop组件中应用层原生明细信息、作业及Hive查询的日志现场，简化了用户应用层异常排查的操作过程。同时推出配置对比、扩容指定配置组、标签分账、磁盘检查更新等功能，优化了集群运维管理体验，并显著提升资源管理的便捷性。 Elasticsearch Service 本期腾讯云ES重磅推出了自治索引，通过实时跟踪业务压力变化，能够动态、稳定的调整分片数与滚动周期，实现一站式索引全托管！同时，也推出了索引管理可视

02

MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太清楚，同时MapReduce1.0和MapReduce2.0在网上有很多人混淆。

06

Flink 实践教程-入门（7）：消费 Kafka 数据写入 PG

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将您详细介绍如何利用 Python 脚本发送模拟数据到 CKafka 中，之后取 CKakfa 的数据经过简单的算术函数转换存入到 PostgreSQL

03

打造自己的MapReduce[二]:Hadoop连接MongoDB

在搭建完Hadoop集群后，我们可以基于HDFS做一些离线计算。然而HDFS毕竟是基于文件的系统，所以当我们存储的数据要兼顾一些线上业务访问的时候（如接入层/推荐引擎的实时用户画像查询）就显得比较捉急了。HDFS查询读取没有索引，至少也是分钟级的，此时要是把支持高并发的数据库与Hadoop直接对接，岂不美哉？

03

Flink 实践教程-进阶（10）：自定义聚合函数（UDAF）

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将为您详细介绍如何使用自定义聚合函数（UDAF），将处理后的存入 MySQL 中。前置准备创建流计算 Oceanus 集群进入 Oceanus 控

02

MapReduce之自定义OutputFormat

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口。下面介绍几种常见的OutputFormat实现类。

02

Mybatis面试题（2021最新版）

MyBatis 是一款优秀的持久层框架，它支持定制化 SQL、存储过程以及高级映射。MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集。

07

MapReduce 编程不可怕，一篇文章搞定它

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

02

Flink 实践教程-入门（9）：Jar 作业开发

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。 Flink Jar 作业既支持使用 DataStream API 编程也支持使用 Table API/SQL 编程， Table API 和 SQL 也

04

EventBridge 最佳实践场景：流计算 Oceanus 告警消息实时推送

作者：腾讯云云函数团队产品经理April 导语|本文演示了如何捕获流计算 Oceanus (Flink) 集群状态变更，并通过事件总线（EventBridge）发送到企业微信或钉钉、飞书客户端。背景介绍监控与报警系统对于业务生产环境来说是不可或缺的，一旦有故障发生，需要有完善的监控告警链路，保证告警消息可以实时完成推送并进行处理。腾讯云事件总线（EventBridge）[1] 简称 EB，是一款安全、稳定、高效的无服务器事件管理平台。事件中心的事件总线可以接收来自您自己的应用程序、软件即服务（Sa

03

Flink 最佳实践：TDSQL Connector 的使用（上）

作者：姚琦，腾讯 CSIG 工程师本文介绍了如何在 Oceanus 平台使用 tdsql-subscribe-connector [1] ，从 TDSQL-MySQL 订阅任务 [2] 创建，到 Oceanus 作业创建、最终数据验证，实现全流程的操作指导。需要注意的是，本文默认已经创建 TDSQL-MySQL 实例和 Oceanus 集群，并且二者在同一 VPC 下或者不同 VPC 下但网络已经打通。上述流程图简要说明了使用 tdsql-subscribe-connector 时，整个数据流向情况。

02

进击大数据系列（六）：Hadoop 分布式计算框架 MapReduce

MapReduce 是一种编程模型（没有集群的概念，会把任务提交到 yarn 集群上跑），用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

01

Flink 实践教程-进阶（6）：CEP 复杂事件处理

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。 Flink CEP[1] 是在 Flink 上层实现的复杂事件处理库。本文将为您详细介绍如何使用 Flink CEP 实现对复杂事件的处理。示例程序使用 D

02

【技术种草】我用 1个肉夹馍的钱，搭了整套大数据系统

下面我分享一下如何用 1 个肉夹馍的钱来搭建一套云上的大数据平台。经过本人反复的钻研，发现薅羊毛这件事简直是太简单了。最后买 MySQL 19.9元，流计算 Oceanus(Flink) 1 元，花了二十几块钱，搭建了这样式的大数据系统。

07

【玩转腾讯云】对象存储COS的权限管理分析

随着互联网和公有云的发展，越来越多的企业把数据放到公有云上，COS（Cloud Object Storage）作为腾讯云的对象存储产品，提供了高容量、高可靠、低成本的存储解决方案，也使得客户把越来越多的业务数据放到了COS上。

Flink 实践教程-进阶（11）：SQL 关联：Regular Join

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。 Flink SQL 提供了 Regular Joins、Interval Joins、Temporal Joins、Lookup Join、Array 展平和

02

Flink 实践教程-进阶（9）：自定义表值函数（UDTF）

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将为您详细介绍如何使用自定义表值函数（UDTF），并将处理后的数据存入 MySQL 中。前置准备创建流计算 Oceanus 集群进入 Oceanus

02

Hadoop基础教程-第6章 MapReduce入门（6.4 MapReduce程序框架）

我们知道，从单线程编程到多线程编程，程序结构复杂度增大了。类似的，从单机程序到分布式程序，程序结构的复杂度也增大了。这是问题的复杂环境决定的。所以，很多初学者更接触分布式编程时，望而却步、知难而退了。可事实上，Hadoop是一个很易用的分布式编程框架，经过良好封装屏蔽了很多分布式环境下的复杂问题，因此，对普通开发者来说很容易，容易到可以依照程序模版，照葫芦画瓢。下面代码即是Hadoop的MapReduce程序模版，其中使用了Hadoop辅助类，通过Configured的getConf()方法获取Configuration对象，重写Tool接口的run方法，实现Job提交功能。这样就可以实现代码与配置隔离，修改MapReduce参数不需要修改java代码、打包、部署，提高工作效率。

03

Flink 实践教程-进阶（4）：TOP-N

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将会介绍如何使用 Flink 实现常见的 TopN 统计需求。首先使用 Python 脚本模拟生成商品购买数据（每秒钟发送一条）并发送到 CKafka，随后

02

Hadoop数据分析平台实战——060深入理解MapReduce 01（案例）离线数据分析平台实战——060深入理解MapReduce 01（案例）

离线数据分析平台实战——060深入理解MapReduce 01（案例）用户自定义数据类型 MapReduce中的数据类型至少有两种用途。第一个用途，这些类型定义的数据可以被序列化进行网络传输和文件存储，第二个用途，在shuffle阶段要可以进行大小比较。那么在hadoop中解决第一种方式采用hadoop的接口Writable，第二种采用接口java接口Comparable(Hadoop将这两个接口结合提供了WritableComparable接口)。 Hadoop提供了很多的内置数据类

09

Hadoop学习笔记—4.初识MapReduce

MapReduce是Google的一项重要技术，它首先是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。但对许多开发者来说，自己完完全全实现一个并行计算程序难度太大，而MapReduce就是一种简化并行计算的编程模型，它使得那些没有多有多少并行计算经验的开发人员也可以开发并行应用程序。这也就是MapReduce的价值所在，通过简化编程模型，降低了开发并行应用的入门门槛。

02

腾讯云 Elasticsearch 购买建议

腾讯云 Elasticsearch 目前提供5个版本：5.6.4、6.4.3、6.8.2、7.5.1、7.10.1版本。具体选择那个版本根据实际需求选择。建议选择 6.8.2 以上的版本，优化和稳定性比较好，并且支持长期优化更新。如果后期需要升级版本，在控制台上即可完成升级。

03

腾讯云容器服务日志采集最佳实践

roc，腾讯高级工程师，Kubernetes Contributor，热爱开源，专注云原生领域。目前主要负责腾讯云TKE 的售中、售后的技术支持，根据客户需求输出合理技术方案与最佳实践，为客户业务保驾护航。概述本文介绍如何利用腾讯云容器服务 TKE 的日志功能对日志进行采集、存储与查询，分析各种功能用法与场景，给出一些最佳实践建议。注: 本文仅适用于 TKE 集群。如何快速上手 TKE 的日志功能入口在集群运维-日志规则，更多关于如何为 TKE 集群启用日志采集与基础用法，参考TKE日志采集

Flink 实践教程：入门8-简单 ETL 作业

流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。

06

使用 HDFS 协议访问对象存储服务

背景介绍原生对象存储服务的索引是扁平化的组织形式，在传统文件语义下的 List 和 Rename 操作性能表现上存在短板。腾讯云对象存储服务 COS 通过元数据加速功能，为上层计算业务提供了等效于 HDFS 协议的操作接口和操作性能。（一）什么是元数据加速器？元数据加速功能是由腾讯云对象存储（Cloud Object Storage，COS）服务提供的高性能文件系统功能。元数据加速功能底层采用了云 HDFS 卓越的元数据管理功能，支持用户通过文件系统语义访问对象存储服务，系统设计指标可以达到2.4

01

雁栖学堂：湖存储专题直播第一讲回顾

数据爆炸时代已经来临，数据作为企业的核心资产，如何利用好数据对企业来说至关重要，数据湖存储应运而生。腾讯云存储团队技术大牛程力，围绕数据湖加速器GooseFS展开演讲，下面让我们一起回顾下程力老师的精彩演讲内容。今天的主题是数据湖存储方面的内容。整个内容分四个部分：

04

Hadoop使用学习笔记（4）

Hadoop使用学习笔记 2. 基本Map-Reduce工作配置与原理（下）之前的任务：用新的API如下： package com.hash.test.hadoop.mapred; imp

04

Flink JobManager内存管理机制介绍与调优总结

作者：董伟柯，腾讯云大数据高级工程师概要我们知道，旧版本 Flink 的 JobManager 作为管理者，只承担着初始化和协调的任务，内存压力非常小，很少出现 OOM 等问题。但是，随着 Flink CDC [1] 实时数据捕获技术的广泛应用，以及采用 Flink 新版 Source 接口（FLIP-27: Refactor Source Interface [2]）的 Connector 日渐增加，JobManager 的职责越来越重：它还肩负着定期动态感知和协调数据分片的职责（SplitEnum

01

指标统计：基于流计算 Oceanus(Flink) 实现实时 UVPV 统计

作者：吴云涛，腾讯 CSIG 高级工程师导语 | 最近梳理了一下如何用 Flink 来实现实时的 UV、PV 指标的统计，并和公司内微视部门的同事交流。然后针对该场景做了简化，并发现使用 Flink SQL 来实现这些指标的统计会更加便捷。一解决方案描述 1.1 概述本方案结合本地自建 Kafka 集群、腾讯云流计算 Oceanus（Flink)、云数据库 Redis 对博客、购物等网站 UV、PV 指标进行实时可视化分析。分析指标包含网站的独立访客数量（UV ）、产品的点击量（PV）、转化率（

01

Flink 实践教程-入门（4）：读取 MySQL 数据写入到 ES

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将为您详细介绍如何使用 MySQL 接入数据，经过流计算 Oceanus 对数据进行处理分析（示例中采用小写转换函数对name字段进行了小写转换），最终将处

03

Flink 实践教程-入门（5）：写入 ClickHouse

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将为您详细介绍如何使用 Datagen Connector 模拟生成客户视频点击量数据，并利用滚动窗口函数对每分钟内客户的视频点击量进行聚合分析，最后将

01

Flink 实践教程-进阶（3）：窗口操作

作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。本文将为您详细介绍如何实时获取 CKafka 中的 JSON 格式数据，经过 HOP WINDOW（滑动窗口）函数聚合分析后存入 ClickHouse 中。前

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭