腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

扎心了老铁

专栏作者

89

文章

206099

阅读量

41

订阅数

大数据算法设计模式(2) - 左外链接(leftOuterJoin) spark实现

左外链接(leftOuterJoin) spark实现 package com.kangaroo.studio.algorithms.join; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.

2018-03-05

6810

thrift例子：python客户端/java服务端

python java 大数据

java服务端的代码请看上文。 1、说明：这两篇文章其实解决的问题是，当使用python去访问大数据线上集群的时候，遇到两个问题： 1）python-hadoop和python-hive相关包链接不稳定，表现为经常出现链接超时； 2）如果使用fork进程执行hadoop fs或者hive -e的方式则消耗大量的机器资源，包括进程资源和集群链接资源。我们的解决方式是写一个java的代理服务，使用java-hadoop封装了对集群的操作，通过thrift提供接口给python程序。 2、编译.thrfit

2018-03-05

1.4K0

大数据算法设计模式(1) - topN spark实现

大数据 spark 编程算法

topN算法，spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFuncti

2018-03-05

1.2K0

java使用spark/spark-sql处理schema数据

java spark sql 大数据

1、spark是什么？ Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算相比于MapReduce基于IO计算，提高了在大数据环境下数据处理的实时性。 1.2 高容错性和高可伸缩性与mapreduce框架相同，允许用户将Spark部署在大量廉价硬件之上，形成集群。 2、spark编程每一个spark应用程序都包含一个驱动程序（driver program ），他会运行用户的main函数，并在集群上执行各种并行操作（parallel operations） spark提供的最

2018-03-05

9880

hiveQL求差集

hive sql求差集的方法 1、什么是差集 set1 - set2，即去掉set1中存在于set2中的数据。 2、hive中计算差集的方法，基本是使用左外链接。直接上代码 select * from table1 t1 left outer join table2 t2 on t1.id = t2.id where t2.id = null; 3、一般来说我们要先去重，使得两个表都变成集合，元素唯一。先对table2(右表)去重然后再计算差集。 select * from 　　( 　　　　selec

2018-03-05

3.2K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态