腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

扎心了老铁

专栏作者

89

文章

206163

阅读量

41

订阅数

使用spark与MySQL进行数据交互的方法

spark 云数据库 SQL Server hive sql

在项目中，遇到一个场景是，需要从Hive数据仓库中拉取数据，进行过滤、裁剪或者聚合之后生成中间结果导入MySQL。对于这样一个极其普通的离线计算场景，有多种技术选型可以实现。例如，sqoop，MR，HSQL。我们这里使用的spark，优点来说是两个：一是灵活性高，二是代码简洁。 1）灵活性高相比sqoop和HSQL，spark可以更灵活的控制过滤和裁剪逻辑，甚至你可以通过外部的配置或者参数，来动态的调整spark的计算行为，提供定制化。 2）代码简洁相比MR来说，代码量上少了很多。也无需实现MySQ

2018-03-05

5.8K0

使用hive客户端java api读写hive集群上的信息

上文介绍了hdfs集群信息的读取方式，本文说hive 1、先解决依赖 <properties> <hive.version>1.2.1</hive.version> </properties> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>${hive.version}</ve

2018-03-05

3.7K0

使用spark对hive表中的多列数据判重

spark hive apache

本文处理的场景如下，hive表中的数据，对其中的多列进行判重deduplicate。 1、先解决依赖，spark相关的所有包，pom.xml spark-hive是我们进行hive表spark处理的关键。 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <ver

2018-03-05

5.1K0

hiveQL求差集

hive sql求差集的方法 1、什么是差集 set1 - set2，即去掉set1中存在于set2中的数据。 2、hive中计算差集的方法，基本是使用左外链接。直接上代码 select * from table1 t1 left outer join table2 t2 on t1.id = t2.id where t2.id = null; 3、一般来说我们要先去重，使得两个表都变成集合，元素唯一。先对table2(右表)去重然后再计算差集。 select * from 　　( 　　　　selec

2018-03-05

3.2K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态