腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SAMshare

专栏作者

271

文章

290850

阅读量

38

订阅数

3万字长文，PySpark入门级学习教程，框架思维

api linux 数据库 spark python

关于PySpark，我们知道它是Python调用Spark的接口，我们可以通过调用Python API的方式来编写Spark程序，它支持了大多数的Spark功能，比如SparkDataFrame、Spark SQL、Streaming、MLlib等等。只要我们了解Python的基本语法，那么在Python里调用Spark的力量就显得十分easy了。下面我将会从相对宏观的层面介绍一下PySpark，让我们对于这个神器有一个框架性的认识，知道它能干什么，知道去哪里寻找问题解答，争取看完这篇文章可以让我们更加丝滑地入门PySpark。话不多说，马上开始！

2021-08-13

7.8K0

PySpark入门级学习教程，框架思维（中）

api sql spark python

在讲Spark SQL前，先解释下这个模块。这个模块是Spark中用来处理结构化数据的，提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。我们之前用过Python的Pandas库，也大致了解了DataFrame，这个其实和它没有太大的区别，只是调用的API可能有些不同罢了。

2021-04-26

4.3K0

BigData |述说Apache Spark

spark apache mapreduce api hadoop

Spark是一个Apache项目，被标榜为"Lightning-Fast"的大数据处理工具，它的开源社区也是非常活跃，与Hadoop相比，其在内存中运行的速度可以提升100倍。Apache Spark在Java、Scale、Python和R语言中提供了高级API，还支持一组丰富的高级工具，如Spark SQL（结构化数据处理）、MLlib（机器学习）、GraphX（图计算）、SparkR（统计分析）以及Spark Streaming（处理实时数据）。

2019-08-21

6650

Big Data | 流处理？Structured Streaming了解一下

spark api python sql 数据处理

上一篇文章里，总结了Spark 的两个常用的库（Spark SQL和Spark Streaming），可以点击这里进行回顾。其中，SparkSQL提供了两个API：DataFrame API和DataSet API，我们对比了它们和RDD：

2019-07-08

1.1K0

BigData | 优秀的流处理框架 Flink

大数据 spark api windows 数据处理

Apache Flink就是其中的翘楚，它采用了基于操作符（operator）的连续流模型，可以做到微秒的延迟。Flink最核心的数据结构是Stream，它代表一个运行在多个分区上的并行流，它没有边界，随着时间的增长而不断变化，而且它是逐条进行操作的，每当有新数据进行就会被执行，这也是Flink低延迟的根本。

2019-07-08

8930

BigData | Apache Beam的诞生与发展

java ide api apache

Paper1: https://research.google.com/pubs/archive/35650.pdf

2019-07-08

1.3K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态