伦少的博客

61 篇文章
23 人订阅

全部文章

董可伦

Spark SQL 优化笔记

首先会导致某个task数量很大,且总task数量很少(task数目不等于rdd或df的分区数,目前不知道原因),接着报java.lang.OutOfMemory...

1181
董可伦

Scala学习笔记

之前看Scala编程思想学习Scala,只看完了一半多,就没再继续深入学习,导致一些Scala基础知识还不知道,而且过去这么长时间了,之前学过的也遗忘了,所以这...

822
董可伦

Hive分桶表学习总结

通过 clustered by(字段名) into bucket_num buckets 分桶,意思是根据字段名分成bucket_num个桶

1182
董可伦

Hive分区表学习总结

不过这里有一个bug,就是往表里新插入数据后,新增的age字段查询全部显示为NULL(其实数据已经存在):

1052
董可伦

Hive内部表和外部表

这样查询的时候就可以把data.txt里的数据查出来了,这时再往对应的HDFS路径下put数据,Hive表也会对应增加。

852
董可伦

Spark操作Hive分区表

前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在...

832
董可伦

Echarts中国地图三级钻取

最近其实一直在用Echarts写前端,之前也想过总结一下Echarts的用法,但是官网的例子已经很全了。写这篇博客是因为Echarts官网把很多地图的例子都去掉...

1511
董可伦

通过Vue CLI 快速创建Vue项目并部署到tomcat

最近一直在写前端,用的是JSP,但是很多人都说JSP已经过时了。既然做了几个月的前端,那就把前端学的好一点,学点新技术,跟上潮流。感觉Vue挺火的,所以这几天学...

942
董可伦

Spark 通过 spark-submit 设置日志级别

Spark有多种方式设置日志级别,这次主要记录一下如何在spark-submit设置Spark的日志级别。

882
董可伦

Centos7 Tomcat9 安装笔记

有两个月没更新博客,部分原因是这两月的工作一直没写Spark程序,而是在写前端,所以虽然期间一直想写但是没有想出从哪方面入手。后端框架用的SpringBoot,...

691
董可伦

打印(获取)HDFS路径下所有的文件名(包括子目录下的)

自己有个需求,如题,需要获取HDFS路径下所有的文件名,然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到,还要递归的去获取子目录下...

1881
董可伦

Spark性能优化:基于分区进行操作

基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每个元素都配置一次的工作...

1491
董可伦

利用Spark实现Oracle到Hive的历史数据同步

和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样,通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲...

1303
董可伦

Spark通过修改DataFrame的schema给表字段添加注释

通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法:

1353
董可伦

Spark创建空的DataFrame

本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为...

1033
董可伦

Spark 创建RDD、DataFrame各种情况的默认分区数

熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultPa...

682
董可伦

通过数据库客户端界面工具DBeaver连接Hive

本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。

1614
董可伦

Spark UDF使用详解及代码示例

本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1....

2053
董可伦

SparkStreaming+Kafka 实现统计基于缓存的实时uv

1953
董可伦

HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够

1233

扫码关注云+社区