首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1278461
阅读量
315
订阅数
Flink生产实时监控和预警配置解析
在实际的Flink 项目中,如何观察Flink的性能,如何监控Flink的运行状态,如何设置报警策略?下面简单讲下我的经验吧。
王知无-import_bigdata
2022-06-05
2.4K0
你问我DataX是谁?对不起,我活在Apache SeaTunnel的时代!
SeaTunnel正式通过世界顶级开源组织Apache软件基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目!
王知无-import_bigdata
2022-01-20
2.4K0
Flink on YARN模式下TaskManager的内存分配探究
该作业启动了10个TaskManager,并正常运行。来到该任务的Web界面,随便打开一个TaskManager页面,看看它的内存情况。
王知无-import_bigdata
2021-06-01
1.2K0
Flink性能调优小小总结
Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。
王知无-import_bigdata
2021-04-21
3.7K0
Flink SQL on Zeppelin - 打造自己的可视化Flink SQL开发平台
目前开发Flink的方式有很多,一般来说都是开发同学写JAVA/SCALA/PYTHON项目,然后提交到集群上运行。这种做法较为灵活,因为你在代码里面可以写任务东西,什么维表JOIN、参数调优,都能很轻松的搞定。但是对开发同学的要求较高,有一定的学习成本。比如有些同学擅长JAVA,有些擅长PYTHON,而在我们的项目开发过程中,是不会允许多种语言共存的,一般来说都是选择JAVA作为我们的开发语言,那么,对于擅长PYTHON的同学来说,再从头开始攀爬JAVA这座大山,而且还得短期能够熟练使用,无疑是难上加难。
王知无-import_bigdata
2021-03-15
4.3K0
基于Flink打造实时计算平台为企业赋能
随着互联网技术的广泛使用,信息的实时性对业务的开展越来越重要,特别是业务的异常信息,没滞后一点带来的就是直接的经济损失。所以实时信息处理能力,越来越成为企业的重要竞争力之一。Flink作为业内公认的性能最好的实时计算引擎,以席卷之势被各大公司用来进处理实时数据。然而Flink任务开发成本高,运维工作量大,面对瞬息万变得业务需求,工程师往往是应接不暇。如果能有一套实时计算平台,让工程师或者业务分析人员通过简单的SQL或者拖拽式操作就可以创建Flink任务,无疑可以快速提升业务的迭代能力。
王知无-import_bigdata
2020-12-18
1.2K0
实时数仓链路分享:kafka =>SparkStreaming=>kudu集成kerberos
本文档主要介绍在cdh集成kerberos情况下,sparkstreaming怎么消费kafka数据,并存储在kudu里面
王知无-import_bigdata
2020-08-12
6060
Flink 参数配置和常见参数调优
ack 数据源是否需要kafka得到确认。all表示需要收到所有ISR节点的确认信息,1表示只需要收到kafka leader的确认信息,0表示不需要任何确认信息。该配置项需要对数据精准性和延迟吞吐量做出权衡。
王知无-import_bigdata
2020-08-11
2.5K0
查看YARN任务日志的几种方式
通过history server,直接在web ui上查看(如果任务异常退出,可能会看不到)
王知无-import_bigdata
2020-07-28
4.5K0
浅谈Linux cgroup机制与YARN的CPU资源隔离
我们在生产环境中经常可以发现有计算密集型任务争用NodeManager的CPU,以及个别Container消耗太多CPU资源导致其他系统服务抖动的情况。好在Hadoop 2.2版本之后,YARN通过利用Linux系统的cgroup机制支持了CPU资源隔离。本文先简单看看cgroup,然后分析一下YARN的CPU资源隔离的方案。
王知无-import_bigdata
2020-06-28
2.6K1
实时计算双星-Flink VS Spark 部署模式对比
本文主要对Flink和Spark集群的standalone模式及on yarn模式进行分析对比。Flink与Spark的应用调度和执行的核心区别是Flink不同的job在执行时,其task同时运行在同一个进程TaskManager进程中;Spark的不同job的task执行时,会启动不同的executor来调度执行,job之间是隔离的。
王知无-import_bigdata
2020-06-28
1K0
Kylin使用Spark构建Cube
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 下面是单机安装采坑记,直接上配置和问题解决。 找一台干净的机器,把hadoop hive hbase从原有节点分别拷贝一份,主要目的是配置文件,可以不在kylin所在机器启动相关进程。 开源版本搭建,非整合HDP和CDH。 个别问题解决参考其他博客。 官网http://kylin.apache.org/cn/docs/ MapReduce构建Cube的问题也已解决,所以使用MapReduce构建Cube也是正常的。
王知无-import_bigdata
2020-05-20
1.8K0
Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)
本文是由alice菌发表在:https://blog.csdn.net/weixin_44318830/article/details/102846055
王知无-import_bigdata
2020-05-08
1.4K0
Flink整合Oozie Shell Action提交任务带Kerberos认证
原文:https://www.cnblogs.com/ljygz/p/11727770.html
王知无-import_bigdata
2020-02-19
1.2K0
Hadoop YARN:调度性能优化实践
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。
王知无-import_bigdata
2019-09-23
1K0
大数据平台演进之路 | 淘宝 & 滴滴 & 美团
声明:本文参考了淘宝/滴滴/美团发表的关于大数据平台建设的文章基础上予以整理。参考链接和作者在文末给出。
王知无-import_bigdata
2019-09-16
3.2K0
YARN
为什么会产生YRAN?这个与MapReduce1.x的架构有关,正是因为MapReduce1.x存在许多的问题,才会产生 YARN。
王知无-import_bigdata
2019-04-24
1.3K0
Flink集群部署
上一节我们讲了单机模式如何部署启动,这节我们基于CentOS 7虚拟机搭建一个3个节点的集群:
王知无-import_bigdata
2019-03-05
4.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档