专栏首页笨兔儿Spark2.3.1使用技巧

Spark2.3.1使用技巧

Spark 2.3.1 使用技巧

Spark-SQL 读取JSON文件时反射表头

case class StudentInfo(id:Long,name:String,age:Int)

val example = spark.read.json("/data/result.json").as(StudentInfo)
example.show()

动态定义schema

在需要根据不同数据定义不同schema

val schemaInfo = "name age"
val fields = schemaInfo.map(item=> item.split(" ")
     .map(item=>StructField(item,StringType,nullable=true))
val schema = StructType(fields)

val rowRDD = peopleRDD.map(_.split(" ").map(attributes=>Row(attributes(0),attributes(1))

val peopleDF = spark.createDataFrame(rowRDD,schema)

peopleDF.show()

Spark 2.3.1 on YARN

spark-submit 限制参数未生效

因为在spark-submit时配置的executor-memory 2g等没有生效,后来问同事说他也碰到这样的问题,解决方案就是动态的分配executor,官方文档,中文文档

--conf spark.yarn.maxAppAttempts=1 --conf spark.dynamicAllocation.minExecutors=2 --conf spark.dynamicAllocation.maxExecutors=4 --conf spark.dynamicAllocation.initialExecutors=4

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Spark2.3.1+Kafka0.9使用Direct模式消费信息异常

    在验证kafka属性时不能使用scala默认的类,需要指定kafka带的类 createDirectStream[String, String, StringD...

    笨兔儿
  • Golang-filepath使用

    笨兔儿
  • ubuntu 织梦DEDE安装 GD插件 OFF问题

    安装Ubuntu 16.04安装织梦CMS开始发现所有目录没有权限,把源码的用户加入到php用户组下面,目录权限问题解决,接下来php-mysql显示为off,...

    笨兔儿
  • 大数据基础系列之提交spark应用及依赖管理

    在Spark的bin目录下的spark-submit脚本用于提交一个任务到集群中。因为是针对所有的集群管理器统一接口(local,Standalone,yarn...

    Spark学习技巧
  • Jenkins部署学习

    初始Jenkins这个词,我记得是17年的10月份,那是在我司的服务器上面看到一个名叫的Jenkins的文件夹。当时我就百度了Jenkins这个词,知道它是基于...

    用户2032165
  • 爬取IP代理偷偷给文章刷阅读量一、前言二、代码三、小结

    原本是想开始维护IP代理池,继续python爬虫进阶之路,但在看其他人写的IP代理爬取的文章时,发现可以把爬下来的IP用来给CSDN博客里的文章刷阅读量,于是就...

    古柳_DesertsX
  • NeuralTalk2---自动产生图片的语句描述

    最近被逼看了点自然语言处理(NLP)的论文,好吧我看不懂,本来我就不是搞这个方向的,说的我迷迷糊糊的,哎,隔行如隔山啊 不过在过程中倒也是收获到了一些东西,比如...

    GavinZhou
  • JAVA native关键字

    reference https://stackoverflow.com/questions/6101311/what-is-the-native-keyword...

    平凡的学生族
  • 打造敏捷外包团队的高度自主与自我学习的生态系统

    前言:    敏捷开发在没有笨重的流程与过重文档的情况下, 为使产品的开发能维持高效的运作, 关键的作法便在于: 团队能否建立一高度自主与自我学习的生态系统?...

    Ken Fang 方俊贤
  • 常见问题:MongoDB诊断

    ·为什么MongoDB会记录这么多“Connection Accepted”事件?

    MongoDB中文社区

扫码关注云+社区

领取腾讯云代金券