董可伦

LV1
发表了文章

利用Submarin集成Spark-Ranger

本文总结如果利用Submarin集成Spark-Ranger,通过ranger控制spark sql的权限

董可伦
发表了文章

HUDI preCombinedField 总结(二)-源码分析

在上一篇博客HUDI preCombinedField 总结中已经对preCombinedField进行总结过一次了,由于当时对源码理解还不够深入,导致分析的不...

董可伦
发表了文章

HUDI preCombinedField 总结

总结 HUDI preCombinedField,分两大类总结,一类是SQL,一类是程序,HUDI0.9版本支持SQL建表和增删改查,当前版本为0.8.0,可用...

董可伦
发表了文章

Spark DataFrame 添加列总结

因添加列在平时可能会经常用到,但是长时间不用,可能会忘记应该用哪个函数,这样再重新查找比较耽误时间,于是总结代码进行备忘。主要总结:

董可伦
发表了文章

通过DBeaver本地访问远程Kerberos环境下的Hive

本文讲解如何通过数据库客户端界面工具DBeaver连接远程Kerberos环境下的Hive。

董可伦
发表了文章

Spark 本地连接远程服务器上带有kerberos认证的Hive

因为公司的测试环境带有kerberos,而我经常需要本地连接测试集群上的hive,以进行源码调试。而本地认证远程集群的kerberos,并访问hive,和在服务...

董可伦
发表了文章

Java 连接 Kereros认证下的Spark Thrift Server/Hive Server总结

总结Java如何连接Kereros认证下的Spark Thrift Server/Hive Server总结

董可伦
发表了文章

Spark Sql 执行流程源码阅读笔记

sessionState.sqlParser val sqlParser: ParserInterface 这里的sqlParser是SparkSqlParse...

董可伦
发表了文章

Spark Sql 创建 Hive表的压缩格式

本人在测试hive表的parquet和orc文件对应的几种压缩算法性能对比。利用Spark thrift server通过sql语句创建表,对比 parquet...

董可伦
发表了文章

Java 连接 Spark Thrift Server/Hive Server总结

总结Spark Thrift Server、Hive Server以及如何用Java连接

董可伦
发表了文章

Spark CoarseGrainedExecutorBackend 启动流程

最近在进行Spark任务调度的源码学习,最开始对CoarseGrainedExecutorBackend的启动流程不是很清楚,所以带着这个疑问继续深入学习,终于...

董可伦
发表了文章

Spark RPC 学习笔记

RpcEnv、RpcEndpoint、RpcEndpointRef主要是想搞懂这三个之间的关系

董可伦
发表了文章

java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/Str

这个异常发生在Spark读取Windows本地CSV然后show,当然一般情况下不会发生,还有一个条件,项目里加了hbase-client和hbase-mapr...

董可伦
发表了文章

Spark Job 提交源码阅读笔记

然后提交job给scheduler val waiter = submitJob(rdd, func, partitions, callSite, resul...

董可伦
发表了文章

在线水平扩展/收缩验证

地址:http://10.111.24.194:8080/#/main/hosts 界面如下:

董可伦
发表了文章

vmware centos7 克隆

记录一下vmware如何克隆一个虚拟机,并解决克隆的centos7虚拟机遇到的网络问题

董可伦
发表了文章

Spark 3.0.1 Structured Streaming 提交程序异常解决

先说解决办法,提交时除了添加spark-sql-kafka和kafka-clients jar包外,还要添加spark-token-provider-kafka...

董可伦
发表了文章

Java API 连接 Hbase示例

然后将hbase-site.xml,core-site.xml复制到本地(如果实在本地运行的话)

董可伦
发表了文章

centos7 hbase1.4.13+hadoop2.7.1+单机环境搭建

因后续要学习研究hbase,那就先从搭建hbase开始吧。先搭建一个单机版的,方便自己学习使用。

董可伦
发表了文章

Spark DataFrame isin方法使用

查询DataFrame某列在某些值里面的内容,等于SQL IN ,如 where year in(‘2017’,’2018’)

董可伦
Pythonspark

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券