Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1303506

阅读量

248

订阅数

Spark DataSource API v2 版本对比 v1有哪些改进？

api java python spark scala

1. 由于其输入参数包括 DataFrame / SQLContext，因此 DataSource API 兼容性取决于这些上层的 API。

Spark学习技巧

2022-04-18

8790

数据质量监控框架及解决方案总结

apache 大数据开源 python

随着业务发展和数据量的增加，大数据应用开发已成为部门应用开发常用的开发方式，由于部门业务特点的关系，spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时，数据的唯一性、完整性、一致性等等校验就开始受到关注，而通常做法是根据业务特点，额外开发job如报表或者检查任务，这样会比较费时费力。

Spark学习技巧

2022-04-18

1.5K0

3.数据湖deltalake之时间旅行及版本管理

api python unix

浪尖在deltalake第一讲的时候说过，它支持数据版本管理和时间旅行：提供了数据快照，使开发人员能够访问和还原早期版本的数据以进行审核、回滚或重新计算。

Spark学习技巧

2021-03-05

9910

Scala守卫语句的集中用法

相比于JAVA，Scala的if增加了两项强大的功能，一是可以直接作为赋值语句，另一种功能是作为守卫语句，不仅远远超过JAVA，甚至也将PYTHON抛在身后。

Spark学习技巧

2020-08-27

9420

和 Python 2.x 说再见！

python https java 网络安全

在技术的长河中，软件、工具、系统等版本的迭代本是常事，但由于使用习惯、版本的兼容性、易用性等因素，很多用户及开发者在使用或做开发的过程中，并不愿意及时同步更新，而这无疑为 IT 技术圈带来了诸多碎片化问题，正如系统之 Android、Windows，也正如编程语言之 Python。

Spark学习技巧

2019-09-04

4950

基于Alluxio系统的Spark DataFrame高效存储管理技术

python spark 缓存存储 api

越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。在未使用Alluxio之前，他们发现生产环境中的一些Spark作业会变慢甚至无法完成。而在采用Alluxio后这些作业可以很快地完成。在这篇文章中，我们将介绍如何使用Alluxio帮助Spark变得更高效，具体地，我们将展示如何使用Alluxio高效存储Spark DataFrame。

Spark学习技巧

2019-05-09

1.1K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态