腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1280212

阅读量

316

订阅数

Flink生产实时监控和预警配置解析

kafka yarn node.js flink 大数据

在实际的Flink 项目中，如何观察Flink的性能，如何监控Flink的运行状态，如何设置报警策略？下面简单讲下我的经验吧。

王知无-import_bigdata

2022-06-05

2.4K0

Flink 源码深度解析-Async IO的实现

javascript node.js ajax

在Flink中使用Async I/O的话，需要有一个支持异步请求的客户端，或者以多线程异步的方式来将同步操作转化为异步操作调用；

王知无-import_bigdata

2022-03-11

6970

我们在学习Kafka的时候，到底在学习什么？

kafka node.js 分布式 spark 面向对象编程

我在之前《Kafka源码阅读的一些小提示》写了一些关于Kafka源码阅读的注意事项。

王知无-import_bigdata

2021-09-22

3120

一篇并不起眼的Kafka面试题

为保证producer发送的数据，能可靠的发送到指定的topic，topic的每个partition收到producer发送的数据后，都需要向producer发送ack（acknowledgement确认收到），如果producer收到ack，就会进行下一轮的发送，否则重新发送数据。所以引出ack机制。

王知无-import_bigdata

2021-07-30

5810

Flink on YARN模式下TaskManager的内存分配探究

flink 大数据缓存 yarn node.js

该作业启动了10个TaskManager，并正常运行。来到该任务的Web界面，随便打开一个TaskManager页面，看看它的内存情况。

王知无-import_bigdata

2021-06-01

1.3K0

Flink性能调优小小总结

flink 大数据 yarn node.js 数据处理

Flink是依赖内存计算，计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC（Garbage Collection），评估内存使用及剩余情况来判断内存是否变成性能瓶颈，并根据情况优化。

王知无-import_bigdata

2021-04-21

3.7K0

Spark Streaming + Canal + Kafka打造Mysql增量数据实时进行监测分析

kafka spark node.js 数据库 scala

Spark中的Spark Streaming可以用于实时流项目的开发，实时流项目的数据源除了可以来源于日志、文件、网络端口等，常常也有这种需求，那就是实时分析处理MySQL中的增量数据。

王知无-import_bigdata

2021-04-21

1.3K0

impala + kudu | 大数据实时计算踩坑优化指南

hive shell node.js 大数据 sql

一开始需要全量导入kudu，这时候我们先用sqoop把关系数据库数据导入临时表，再用impala从临时表导入kudu目标表由于sqoop从关系型数据直接以parquet格式导入hive会有问题，这里默认hive的表都是text格式；每次导完到临时表，需要做invalidate metadata 表操作，不然后面直接导入kudu的时候会查不到数据. 除了查询，建议所有impala操作都在impala-shell而不在hue上面执行 impala并发写入kudu的时候，数据量比较大的时候这时候kudu配

王知无-import_bigdata

2021-04-21

1.9K0

FileSystem/JDBC/Kafka - Flink三大Connector实现原理及案例

kafka python 数据处理 jdbc node.js

本文分别讲述了Flink三大Connector：FileSystem Connector、JDBC Connector和Kafka Connector的源码实现和案例代码。

王知无-import_bigdata

2021-03-26

2K0

Kafka Connect | 无缝结合Kafka构建高效ETL方案

kafka 编程算法 api 分布式 node.js

很多同学可能没有接触过 Kafka Connect，大家要注意不是Connector。 Kafka Connect 是一款可扩展并且可靠地在 Apache Kafka 和其他系统之间进行数据传输的工具。

王知无-import_bigdata

2021-03-15

3.8K0

基于Prometheus+Grafana打造企业级Flink监控系统

flink 大数据 node.js 数据库 sql

在进入本文之前，我先问大家一个问题，你们公司或者业务系统上是如何对生产集群上的数据同步任务、实时计算任务或者是调度任务本身的执行情况和日志进行监控的呢？可能你会回答是自研或者ELK系统或者Zabbix系统。

王知无-import_bigdata

2021-01-20

1.6K0

一次 Spark SQL 性能提升10倍的经历

spark sql node.js 大数据

是酱紫的，简单来说：并发执行 spark job 的时候，并发的提速很不明显。类似于我们内部有一个系统给分析师用，他们写一些 sql，在我们的 spark cluster 上跑。随着分析师越来越多，sql job 也越来越多，等待运行的时间也越来越长，我们就在想怎么把 sql 运行的时间加快一点。我们的整个架构是 spark 1.6.1 on YARN 的，经过分析一些 sql 发现其实大多数分析语句都是比较简单的统计 sql，集群资源也还算多，一条简单的 sql 语句就把整个集群资源的坑占着略显不合适，有点飞机马达装到拖拉机上的赶脚，所以第一步，我们想，支持 spark job 的并行运行。

王知无-import_bigdata

2021-01-06

2.2K0

Klin、Druid、ClickHouse核心技术对比

hbase TDSQL MySQL 版 http node.js 数据结构

KYLIN、DRUID、CLICKHOUSE是目前主流的OLAP引擎，本文尝试从数据模型和索引结构两个角度，分析这几个引擎的核心技术，并做简单对比。在阅读本文之前希望能对KYLIN、DRUID、CLICKHOUSE有所理解。

王知无-import_bigdata

2021-01-06

1.3K0

Kafka重要知识点之消费组概念

在kafka中，某些Topic的主题拥有数百万甚至数千万的消息量，如果仅仅靠个消费者进程消费，那么消费速度会非常慢，所以我们需要使用使用kafka提供的消费组功能，同一个消费组的多个消费者就能分布到多个物理机器上以加速消费

王知无-import_bigdata

2020-09-25

1.5K0

Kafka组消费之Rebalance机制

《Kafka重要知识点之消费组概念》讲到了kafka的消费组相关的概念，消费组有多个消费者，消费组在消费一个Topic的时候，kafka为了保证消息消费不重不漏，kafka将每个partition唯一性地分配给了消费者。但是如果某个消费组在消费的途中有消费者宕机或者有新的消费者加入的时候那么partition分配就是不公平的，可能导致某些消费者负载特别重，某些消费者又没有负载的情况。Kafka有一种专门的机制处理这种情况，这种机制称为Rebalance机制。

王知无-import_bigdata

2020-09-25

5.2K0

Hadoop支持Lzo压缩配置及案例

hadoop node.js 大数据文件存储打包

1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。 2）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/

王知无-import_bigdata

2020-09-08

1.8K0

HDFS应用场景、原理、基本架构及使用方法

大数据缓存 node.js hadoop bash

如果一个文件大小为10K，则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)

王知无-import_bigdata

2020-08-20

1.4K0

基于实际业务场景下的Flume部署

网站 kafka 专用宿主机 nginx node.js

这时候在kafka就能看到用户点击行为，也正是nginx记录的内容不断点击，kafka模拟消费端就能不断看到消息进来。

王知无-import_bigdata

2020-08-13

3590

实时数仓链路分享：kafka =>SparkStreaming=>kudu集成kerberos

spark kafka kerberos yarn node.js

本文档主要介绍在cdh集成kerberos情况下，sparkstreaming怎么消费kafka数据，并存储在kudu里面

王知无-import_bigdata

2020-08-12

6060

Spark Kafka 基于Direct自己管理offset

node.js kafka spark java scala

在Spark Streaming中，目前官方推荐的方式是createDirectStream方式，但是这种方式就需要我们自己去管理offset。目前的资料大部分是通过scala来实现的，并且实现套路都是一样的，我自己根据scala的实现改成了Java的方式，后面又相应的实现。 Direct Approach 更符合Spark的思维。我们知道，RDD的概念是一个不变的，分区的数据集合。我们将kafka数据源包裹成了一个KafkaRDD，RDD里的partition 对应的数据源为kafka的partition。唯一的区别是数据在Kafka里而不是事先被放到Spark内存里。其实包括FileInputStream里也是把每个文件映射成一个RDD。

王知无-import_bigdata

2020-08-06

8530

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态