大神带我来搬砖-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大神带我来搬砖

专栏成员

63

文章

81834

阅读量

21

订阅数

Spark RDD深入浅析

css 分布式 spark

Spark里的RDD是什么？在Spark如火如荼的今天，很多面试官都会问这个问题。想必答案大家都脱口而出--就是弹性分布式数据集嘛，但是它怎么就弹性了？它怎么分布式的？就需要去它的实现代码中一探究竟了。

大神带我来搬砖

2019-05-08

8400

在log4j2中灵活切换输出日志的格式

使用log4j2的过程中，日志是安装固定格式输出的。这个格式是pattern所定义的，例如 %d{dd MMM yyyy HH:mm:ss,SSS}: %m%n 但是在有些情况下，想在输出日志时，使用不同的pattern。例如在正常输出日志时，使用系统默认的pattern，在输出spark任务的运行信息时，因为spark任务的运行结果已经使用了log4j的pattern，如果再加上多余的pattern，会显得非常冗余，因此我们只需要使用%m%n即可。这时可以采用以下方式设置log4j2

大神带我来搬砖

2018-05-02

2.5K0

分布式数据存储系统kudu使用总结

分布式存储开源 spark sql

Kudu是Cloudera开源的新型列式存储系统，专门为了对快速变化的数据进行快速的分析。在国内，小米和神策都已经采用了kudu。我们使用了kudu 1.3.0版本存储用户行为数据，现在已经使用了一段时间。首先它的插入性能还是不错的，设置足够的内存以后，插入速度轻轻松松就达到了百万条每秒。查询速度还算中规中矩，用spark SQL或者impala在上面都有不错的查询速度，至少比hbase快多了，当然前提是要合理设置range分区，让每次的查询进行提前剪枝。当然在使用过程中遇到了几个小坑，

大神带我来搬砖

2018-05-02

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态