专栏首页Spark学习技巧Spark2.4.0发布了!

Spark2.4.0发布了!

Spark2.4.0 今天官网发布,这是一个大好消息。

Spark 2.4.0是2.x的第五个发型版本。官方发布消息链接如下:

http://spark.apache.org/releases/spark-release-2-4-0.html

此版本继续关注可用性,稳定性和优化,浪尖在这里摘要翻译一下,主要的关注点:

SparkCore 和 SQL

  • 增加了Barrier ExecutionMode,可以更好的和深度学习的框架整合
  • 同时引入了 30+ 内置函数和 higher-order函数可以处理更复杂的数据类型
  • 改善了与k8s的整合
  • 支持scala 2.12
  • 内置支持了Avro格式数据源,这个感情好,后面浪尖给出测试案例,以后有pb的支持那就更好了。

性能和稳定性

这个优化比较多,指的关注

  • Connector优化

这个优化主要是Parquet,orc,csv及avro等的优化升级

MLlib

  • MLlib支持了图像格式的数据源

StructuredStreaming

  • 使用foreachBatch(支持Python,Scala和Java)将每个微批的输出行暴露为DataFrame。
  • 为Python API 增加了foreach 和 ForeachWriter
  • 支持使用“kafka.isolation.level”读取使用事务的生产者生产到kafka topic的已提交消息。

Spark SQL的升级页面里也有对Spark 2.4 在 SQL 方面的调整优化,大家有兴趣也可以看看,有没有自己关系的bug被修复了。

http://spark.apache.org/docs/latest/sql-migration-guide-upgrade.html#upgrading-from-spark-sql-23-to-24

细心的同学注意到了,Spark Streaming已经稳定到不用更新了,,,还是说Spark Streaming已经凉凉了。

本文分享自微信公众号 - Spark学习技巧(bigdatatip)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Spark SQL的几个里程碑!

    官方版本是spark 1.0.0引入的Spark SQL模块。当时这个模块的核心实际上就是一种新类型的RDD,叫做SchemaRDD。SchemaRDD就是类型...

    Spark学习技巧
  • 基于Spark的大规模推荐系统特征工程

    导读:特征工程在推荐系统中有着举足轻重的作用,大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式作为国际领先的机器学习和人工智能技术与平台服务提供...

    Spark学习技巧
  • 第4篇:SQL

    前言 确实,关于SQL的学习资料,各类文档在网上到处都是。但它们绝大多数的出发点都局限在旧有关系数据库里,内容近乎千篇一律。而在当今大数据的浪潮下,SQL早就被...

    Spark学习技巧
  • 数据库事务理解

    事物 本章讲述了三种常见的数据操作语句Insert /Update / Delete的基本语法,也提到了Oracle9i新的数据操作语句 – Merge的作用和...

    程序源代码
  • SAP gateway系统和后台系统的OData双重cache机制

    两个table用前面的前缀/BEP: backend和/FND: frontend区分

    Jerry Wang
  • SAP gateway系统和后台系统的OData双重cache机制

    /IWFND/CACHE_CLEANUP /IWBEP/CACHE_CLEANUP

    Jerry Wang
  • Qt编写数据可视化大屏界面电子看板12-数据库采集

    数据采集是整个数据可视化大屏界面电子看板系统核心功能,没有数据源,这仅仅是个玩具UI,没啥用,当然默认做了定时器模拟数据,产生随机数据,这个可以直接配置文件修改...

    feiyangqingyun
  • 一行代码简化Python异常信息:错误清晰指出,排版简洁美观 | 开源

    只需一个import,报错也能整齐划一,错误代码位置、错误原因清晰明了,一眼就能看清。debug仿佛都没有那么痛苦了。

    OpenCV学堂
  • 一行代码简化Python异常信息:错误清晰指出,排版简洁美观 | 开源

    只需一个import,报错也能整齐划一,错误代码位置、错误原因清晰明了,一眼就能看清。debug仿佛都没有那么痛苦了。

    量子位
  • 实习生,你不清楚的项目开发流程和规范?

    一般一个项目部署的环境至少有本地环境、dev开发环境、fat环境、线上环境,只是最最基本的几个环境。

    benny

扫码关注云+社区

领取腾讯云代金券