首页
学习
活动
专区
工具
TVP
发布

码字搬砖

专栏作者
209
文章
290059
阅读量
32
订阅数
spark sql 生成 json
想通过 spark sql 查询 hive 表然后将相应的字段组装成 sql,类似于 json_object ,不过可惜的是 spark 3.1.x 并没有 json_object 函数,不过还好spark sql 有 to_json 函数
shengjk1
2022-06-22
1.4K0
优化spark sql读取 kudu数据
通过 spark sql 读取 kudu 数据,由于 kudu 表 只有 6 个 tablet ,所以 spark 默认只能启动 6 个 task,读取 kudu 数据,通过界面可以看到 kudu 的 scan 维持在 143M/s ,想要增大 spark 读取 kudu 的效率。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2020051118163413.png)
shengjk1
2020-05-12
2K0
spark save parquet in impala dir not support add columns
1.问题: 项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面,然后在 impala 中添加字段,报错. 例如:我将 spark 生成的 parquet 数据放到 impala 表 event_s_p186 相应的目录下,然后添加字段 aaa,字段顺序如下:
shengjk1
2020-03-30
4850
Antl4 访问者模式返回对象
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
shengjk1
2019-10-22
6280
关于分布式计算框架连接kafka不满足同一消费者组不满足只有一个消费者的情况
版权声明:本文为博主原创,欢迎转载,转载请标明出处 Blog Address:http://blog.csdn.net/jsjsjs1789 https://blog.csdn.net/jsjsjs1789/article/details/88925425
shengjk1
2019-04-09
4050
spark内存模型概论
背景: 自从开始接触spark之后就一直很奇怪spark on yarn到底是怎么样跑起来了,具体的内存占用是怎么分配的?如果container的内存小于–executor-memory的话,spa
shengjk1
2018-12-06
9450
CDH集成Kafka
1.离线 先下载相应版本的kafka http://archive.cloudera.com/kafka/parcels/ 然后放置相应目录,如下图:
shengjk1
2018-10-24
1.1K0
CDH安装遇到问题
3.若hive想关联spark All HiveServer2 roles must have a Spark role (such as a Gateway) on the same host to pick up the Spark configuration. You must deploy Spark client configuration before this will work correctly.
shengjk1
2018-10-24
6520
Spark Insert Hbase解决task not to serializable
package javasssss; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Put; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import
shengjk1
2018-10-24
9760
解决spark streaming长时间运行日志不断增长问题
背景: 由于spark streaming是7*24小时不间断运行的,日志必然会越来越多到最后大的惊人,在此小二记录一下解决日志越来越大的过程,以便需要之人。
shengjk1
2018-10-24
2.6K0
Spark redis的坑
对于用scala来写spark程序员来说,spark streaming连接redis spark-redis.jar肯定是首选,但有一个坑就是ssc.sparkContext.fromRedisKV 底层是通过scan来获取数据的,当redis中数据过多时,效率十分低下 设置并行度的时候,要注意不能大于redis的个数
shengjk1
2018-10-24
1.8K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档