伦少的博客

61 篇文章
24 人订阅

spark

董可伦

Spark操作Hive分区表

前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在...

1612
董可伦

Spark性能优化:基于分区进行操作

基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每个元素都配置一次的工作...

2721
董可伦

利用Spark实现Oracle到Hive的历史数据同步

和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样,通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲...

2243
董可伦

Spark通过修改DataFrame的schema给表字段添加注释

通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法:

1913
董可伦

Spark创建空的DataFrame

本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为...

1483
董可伦

Spark 创建RDD、DataFrame各种情况的默认分区数

熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultPa...

982
董可伦

SparkStreaming+Kafka 实现统计基于缓存的实时uv

2273
董可伦

spark-submit报错:Application application_1529650293575_0148 finished with failed status

2352
董可伦

Spark获取当前分区的partitionId

961
董可伦

Spark Streamming+Kafka提交offset实现有且仅有一次

6212
董可伦

spark-submit提交Spark Streamming+Kafka程序

2875
董可伦

如何解决spark开发中遇到需要去掉文件前几行数据的问题

1953
董可伦

Spark架构原理

2955
董可伦

SparkStreaming+Kafka 实现基于缓存的实时wordcount程序

1836
董可伦

Spark读取压缩文件

1.6K10
董可伦

Scala日期操作

3043
董可伦

Spark 持久化(cache和persist的区别)

4314
董可伦

spark ML之特征处理(1)

转载请务必注明原创地址为:https://dongkelun.com/2018/05/17/sparkMlFeatureProcessing1/

99610
董可伦

Spark Streaming连接Kafka入门教程

转载请务必注明原创地址为:https://dongkelun.com/2018/05/17/sparkKafka/

53110
董可伦

旧版spark(1.6版本) 将rdd动态转为dataframe

转载请务必注明原创地址为:http://dongkelun.com/2018/05/11/rdd2df/

4205

扫码关注云+社区

领取腾讯云代金券