伦少的博客

50 篇文章
23 人订阅

全部文章

董可伦

Spark性能优化:基于分区进行操作

基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每个元素都配置一次的工作...

651
董可伦

利用Spark实现Oracle到Hive的历史数据同步

和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样,通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲...

573
董可伦

Spark通过修改DataFrame的schema给表字段添加注释

通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法:

893
董可伦

Spark创建空的DataFrame

本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为...

693
董可伦

Spark 创建RDD、DataFrame各种情况的默认分区数

熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultPa...

522
董可伦

通过数据库客户端界面工具DBeaver连接Hive

本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。

674
董可伦

Spark UDF使用详解及代码示例

本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1....

1053
董可伦

SparkStreaming+Kafka 实现统计基于缓存的实时uv

1483
董可伦

HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够

1073
董可伦

ambari 异常总结及解决办法

811
董可伦

spark-submit报错:Application application_1529650293575_0148 finished with failed status

932
董可伦

Spark获取当前分区的partitionId

571
董可伦

Spark DataFrame按某列降序排序

962
董可伦

Spark Streamming+Kafka提交offset实现有且仅有一次

2722
董可伦

通过offsets.retention.minutes设置kafka offset的过期时间

2163
董可伦

spark-submit提交Spark Streamming+Kafka程序

1465
董可伦

如何解决spark开发中遇到需要去掉文件前几行数据的问题

1313
董可伦

Spark架构原理

1955
董可伦

SparkStreaming+Kafka 实现基于缓存的实时wordcount程序

1526
董可伦

Spark读取压缩文件

58610

扫码关注云+社区