码字搬砖-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

码字搬砖

专栏成员

209

文章

303328

阅读量

32

订阅数

spark sql 生成 json

想通过 spark sql 查询 hive 表然后将相应的字段组装成 sql，类似于 json_object ，不过可惜的是 spark 3.1.x 并没有 json_object 函数，不过还好spark sql 有 to_json 函数

2022-06-22

1.5K0

优化spark sql读取 kudu数据

spark javascript

通过 spark sql 读取 kudu 数据，由于 kudu 表只有 6 个 tablet ，所以 spark 默认只能启动 6 个 task，读取 kudu 数据，通过界面可以看到 kudu 的 scan 维持在 143M/s ，想要增大 spark 读取 kudu 的效率。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2020051118163413.png)

2020-05-12

2.1K0

spark save parquet in impala dir not support add columns

1.问题：项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面，然后在 impala 中添加字段，报错. 例如：我将 spark 生成的 parquet 数据放到 impala 表 event_s_p186 相应的目录下，然后添加字段 aaa，字段顺序如下：

2020-03-30

5010

Antl4 访问者模式返回对象

ide 云数据库 SQL Server sql spark 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-10-22

6670

关于分布式计算框架连接kafka不满足同一消费者组不满足只有一个消费者的情况

spark 大数据 kafka http

版权声明：本文为博主原创，欢迎转载，转载请标明出处 Blog Address:http://blog.csdn.net/jsjsjs1789 https://blog.csdn.net/jsjsjs1789/article/details/88925425

2019-04-09

4210

spark内存模型概论

背景：自从开始接触spark之后就一直很奇怪spark on yarn到底是怎么样跑起来了，具体的内存占用是怎么分配的？如果container的内存小于–executor-memory的话，spa

2018-12-06

9570

http hive parcel spark

1.离线先下载相应版本的kafka http://archive.cloudera.com/kafka/parcels/ 然后放置相应目录，如下图：

2018-10-24

1.2K0

CDH安装遇到问题

hive spark xml yum

3.若hive想关联spark All HiveServer2 roles must have a Spark role (such as a Gateway) on the same host to pick up the Spark configuration. You must deploy Spark client configuration before this will work correctly.

2018-10-24

7060

Spark Insert Hbase解决task not to serializable

spark hbase java apache hadoop

package javasssss; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Put; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import

2018-10-24

1K0

解决spark streaming长时间运行日志不断增长问题

spark yarn java apache

背景：由于spark streaming是7*24小时不间断运行的，日志必然会越来越多到最后大的惊人，在此小二记录一下解决日志越来越大的过程，以便需要之人。

2018-10-24

2.7K0

Spark redis的坑

spark 云数据库 Redis scala jar

对于用scala来写spark程序员来说，spark streaming连接redis spark-redis.jar肯定是首选，但有一个坑就是ssc.sparkContext.fromRedisKV 底层是通过scan来获取数据的，当redis中数据过多时，效率十分低下设置并行度的时候，要注意不能大于redis的个数

2018-10-24

1.8K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态