伦少的博客

52 篇文章
23 人订阅

全部文章

董可伦

Centos7 Tomcat9 安装笔记

有两个月没更新博客,部分原因是这两月的工作一直没写Spark程序,而是在写前端,所以虽然期间一直想写但是没有想出从哪方面入手。后端框架用的SpringBoot,...

371
董可伦

打印(获取)HDFS路径下所有的文件名(包括子目录下的)

自己有个需求,如题,需要获取HDFS路径下所有的文件名,然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到,还要递归的去获取子目录下...

991
董可伦

Spark性能优化:基于分区进行操作

基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每个元素都配置一次的工作...

911
董可伦

利用Spark实现Oracle到Hive的历史数据同步

和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样,通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲...

853
董可伦

Spark通过修改DataFrame的schema给表字段添加注释

通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法:

1093
董可伦

Spark创建空的DataFrame

本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为...

873
董可伦

Spark 创建RDD、DataFrame各种情况的默认分区数

熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultPa...

542
董可伦

通过数据库客户端界面工具DBeaver连接Hive

本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。

1104
董可伦

Spark UDF使用详解及代码示例

本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1....

1423
董可伦

SparkStreaming+Kafka 实现统计基于缓存的实时uv

1673
董可伦

HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够

1153
董可伦

ambari 异常总结及解决办法

891
董可伦

spark-submit报错:Application application_1529650293575_0148 finished with failed status

1112
董可伦

Spark获取当前分区的partitionId

621
董可伦

Spark DataFrame按某列降序排序

1082
董可伦

Spark Streamming+Kafka提交offset实现有且仅有一次

3692
董可伦

通过offsets.retention.minutes设置kafka offset的过期时间

3083
董可伦

spark-submit提交Spark Streamming+Kafka程序

1935
董可伦

如何解决spark开发中遇到需要去掉文件前几行数据的问题

1373
董可伦

Spark架构原理

2045

扫码关注云+社区