首页
学习
活动
专区
工具
TVP
发布

悦思悦读

IT技术(人工智能,大数据)和职场话题
专栏成员
170
文章
239853
阅读量
49
订阅数
Spark Tips 1: RDD的collect action 不适用于单个element size过大的情况
collect是Spark RDD一个非常易用的action,通过collect可以轻易获得一个RDD当中所有的elements。当这些elements是String类型的时候,可以轻易将整个RDD转化成一个List<String>,简直不要太好用。 不过等一等,这么好用的action有一个弱点,它不适合size比较的element。举个例子来说吧。请看下面这段代码: ... ... JavaPairInputDStream<String, String> messages = KafkaUtils.cr
叶锦鲤
2018-03-15
1.2K0
Spark Tips 2: 在Spark Streaming中均匀分配从Kafka directStream 中读出的数据
下面这段code用于在Spark Streaming job中读取Kafka的message: ...... JavaPairInputDStream<String,String> messages =KafkaUtils.createDirectStream( jssc, String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaParams, topicsSet ); JavaDStream<String>lin
叶锦鲤
2018-03-15
1.5K0
Spark Tips3: 在Spark Streaming job中读取Kafka messages及其offsetRange
在Spark Streaming job中读取Kafka topic(s)中的messages时,有时我们会需要同步记录下每次读取的messages的offsetRange。要达到这一目的,下面这两段代码(代码1和代码2)都是正确的,而且是等价的。 代码1(正确): ----------------------- JavaPairInputDStream<String, String> messages = KafkaUtils.createDirectStream( jssc,
叶锦鲤
2018-03-15
1.6K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档