悦思悦读-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

悦思悦读

IT技术（人工智能，大数据）和职场话题

专栏成员

170

文章

240212

阅读量

49

订阅数

Spark Tips 1: RDD的collect action 不适用于单个element size过大的情况

collect是Spark RDD一个非常易用的action，通过collect可以轻易获得一个RDD当中所有的elements。当这些elements是String类型的时候，可以轻易将整个RDD转化成一个List<String>,简直不要太好用。不过等一等，这么好用的action有一个弱点，它不适合size比较的element。举个例子来说吧。请看下面这段代码： ... ... JavaPairInputDStream<String, String> messages = KafkaUtils.cr

2018-03-15

1.2K0

Spark Tips 2: 在Spark Streaming中均匀分配从Kafka directStream 中读出的数据

下面这段code用于在Spark Streaming job中读取Kafka的message： ...... JavaPairInputDStream<String,String> messages =KafkaUtils.createDirectStream( jssc, String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaParams, topicsSet ); JavaDStream<String>lin

2018-03-15

1.5K0

Spark Tips3: 在Spark Streaming job中读取Kafka messages及其offsetRange

在Spark Streaming job中读取Kafka topic(s)中的messages时，有时我们会需要同步记录下每次读取的messages的offsetRange。要达到这一目的，下面这两段代码（代码1和代码2）都是正确的，而且是等价的。代码1（正确）： ----------------------- JavaPairInputDStream<String, String> messages = KafkaUtils.createDirectStream( jssc,

2018-03-15

1.6K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态