首页
学习
活动
专区
工具
TVP
发布

大神带我来搬砖

专栏作者
63
文章
79706
阅读量
21
订阅数
Spark RDD深入浅析
Spark里的RDD是什么?在Spark如火如荼的今天,很多面试官都会问这个问题。想必答案大家都脱口而出--就是弹性分布式数据集嘛,但是它怎么就弹性了?它怎么分布式的?就需要去它的实现代码中一探究竟了。
大神带我来搬砖
2019-05-08
8160
在log4j2中灵活切换输出日志的格式
使用log4j2的过程中,日志是安装固定格式输出的。这个格式是pattern所定义的,例如 %d{dd MMM yyyy HH:mm:ss,SSS}: %m%n 但是在有些情况下,想在输出日志时,使用不同的pattern。例如在正常输出日志时,使用系统默认的pattern,在输出spark任务的运行信息时,因为spark任务的运行结果已经使用了log4j的pattern,如果再加上多余的pattern,会显得非常冗余,因此我们只需要使用%m%n即可。 这时可以采用以下方式设置log4j2
大神带我来搬砖
2018-05-02
2.4K0
分布式数据存储系统kudu使用总结
Kudu是Cloudera开源的新型列式存储系统,专门为了对快速变化的数据进行快速的分析。 在国内,小米和神策都已经采用了kudu。 我们使用了kudu 1.3.0版本存储用户行为数据,现在已经使用了一段时间。 首先它的插入性能还是不错的,设置足够的内存以后,插入速度轻轻松松就达到了百万条每秒。 查询速度还算中规中矩,用spark SQL或者impala在上面都有不错的查询速度,至少比hbase快多了,当然前提是要合理设置range分区,让每次的查询进行提前剪枝。 当然在使用过程中遇到了几个小坑,
大神带我来搬砖
2018-05-02
1.2K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档