首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1278786
阅读量
315
订阅数
Flink 细粒度资源管理新特性解读
ApacheFlink努力为所有现成的应用程序自动导出合理的默认资源需求。对于希望根据特定场景的知识微调资源消耗的用户,Flink提供细粒度资源管理。
王知无-import_bigdata
2022-06-05
8340
Spark3.0核心调优参数小总结
基础配置 spark.executor.memory 指定Executor memory,也就是Executor可用内存上限 spark.memory.offHeap.enabled 堆外内存启用开关 spark.memory.offHeap.size 指定堆外内存大小 spark.memory.fraction 堆内内存中,Spark缓存RDD和计算的比例 spark.memory.storageFraction Spark缓存RDD的内存占比,相应的执行内存比例为1 - spark.memory.st
王知无-import_bigdata
2021-12-28
1.6K0
【Spark重点难点】你以为的Shuffle和真正的Shuffle
上节课我们讲了DAGScheduler划分Stage的原理: DAGScheduler调度时会根据是否需要经过Shuffle过程将Job划分为多个Stage。
王知无-import_bigdata
2021-12-07
2.2K0
HDFS应用场景、原理、基本架构及使用方法
如果一个文件大小为10K,则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)
王知无-import_bigdata
2020-08-20
1.4K0
Redis中的管道Pipeline操作
Redis默认每次执行请求都会创建和断开一次连接池的操作,如果想执行多条命令的时候会在这件事情上消耗过多的时间,因此我们可以使用Redis的管道来一次性发送多条命令并返回多个结果,节约发送命令和创建连接的时间提升效率。
王知无-import_bigdata
2020-07-28
2.7K0
Spark-submit 参数调优完整攻略
该参数主要用于设置该应用总共需要多少executors来执行,Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor个数,并尽量满足所需。在不带的情况下只会分配少量Executor。这个值得设置还是要看分配的队列的资源情况,太少了无法充分利用集群资源,太多了则难以分配需要的资源。
王知无-import_bigdata
2020-07-21
2.7K0
浅谈Linux cgroup机制与YARN的CPU资源隔离
我们在生产环境中经常可以发现有计算密集型任务争用NodeManager的CPU,以及个别Container消耗太多CPU资源导致其他系统服务抖动的情况。好在Hadoop 2.2版本之后,YARN通过利用Linux系统的cgroup机制支持了CPU资源隔离。本文先简单看看cgroup,然后分析一下YARN的CPU资源隔离的方案。
王知无-import_bigdata
2020-06-28
2.6K1
Flink-1.10中的StreamingFileSink相关特性
Flink流式计算的核心概念,就是将数据从Source输入流一个个传递给Operator进行链式处理,最后交给Sink输出流的过程。本篇文章主要讲解Sink端比较强大一个功能类StreamingFileSink,我们基于最新的Flink1.10.0版本进行讲解,之前版本可能使用BucketingSink,但是BucketingSink从Flink 1.9开始已经被废弃,并会在后续的版本中删除,这里只讲解StreamingFileSink相关特性。
王知无-import_bigdata
2020-06-04
1.5K0
Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合
之前非常担心的一件事就是如果有人拿到了hdfs超级管理员帐号,直接把数据rm -rf怎么办?有了Kerberos,就可以轻松防止这样的事情发生。Kerberos 协议实现了比“质询-响应”模式协议更高的安全性:第一,在身份验证过程中,所有的数据都使用不同的密码进行加密,避免了相关验证信息的泄漏;第二,客户端和服务器会相互验证对方的身份,避免了 中间人攻击 ;第三,客户端和服务器间的时间差被严格限制,避免了 回放攻击 。与 WINDOWS 系统中的 用户安全令牌 类似, Kerberos 服务通过“ 加密的票据(防止篡改) ”验证用户身份和提供用户访问权限;Kerberos 服务可以通过使用 会话密钥 确保在会话中数据的机密性和完整性。
王知无-import_bigdata
2020-05-29
7710
Flink-Kafka-Connector Flink结合Kafka实战
启动zk:nohup bin/zookeeper-server-start.sh config/zookeeper.properties &
王知无-import_bigdata
2019-03-07
1.3K0
13-Flink-Kafka-Connector
顾名思义,生产者就是生产消息的组件,它的主要工作就是源源不断地生产出消息,然后发送给消息队列。生产者可以向消息队列发送各种类型的消息,如狭义的字符串消息,也可以发送二进制消息。生产者是消息队列的数据源,只有通过生产者持续不断地向消息队列发送消息,消息队列才能不断处理消息。
王知无-import_bigdata
2019-03-05
1.1K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档