腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SAMshare

专栏作者

271

文章

289676

阅读量

38

订阅数

一起揭开 PySpark 编程的神秘面纱

spark python sql 分布式

Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架，类似于 Hadoop，但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入 HDFS，更适用于需要迭代的 MapReduce 算法场景中，可以获得更好的性能提升。例如一次排序测试中，对 100TB 数据进行排序，Spark 比 Hadoop 快三倍，并且只需要十分之一的机器。Spark 集群目前最大的可以达到 8000 节点，处理的数据达到 PB 级别，在互联网企业中应用非常广泛。

2021-09-29

2K0

3万字长文，PySpark入门级学习教程，框架思维

api linux 数据库 spark python

关于PySpark，我们知道它是Python调用Spark的接口，我们可以通过调用Python API的方式来编写Spark程序，它支持了大多数的Spark功能，比如SparkDataFrame、Spark SQL、Streaming、MLlib等等。只要我们了解Python的基本语法，那么在Python里调用Spark的力量就显得十分easy了。下面我将会从相对宏观的层面介绍一下PySpark，让我们对于这个神器有一个框架性的认识，知道它能干什么，知道去哪里寻找问题解答，争取看完这篇文章可以让我们更加丝滑地入门PySpark。话不多说，马上开始！

2021-08-13

7.8K0

用PySpark开发时的调优思路（下）

下面我们就来讲解一些常用的Spark资源配置的参数吧，了解其参数原理便于我们依据实际的数据情况进行配置。

2021-08-13

1.7K0

用PySpark开发时的调优思路（上）

文件存储 spark python

这一小节的内容算是对pyspark入门的一个ending了，全文主要是参考学习了美团Spark性能优化指南的基础篇和高级篇内容，主体脉络和这两篇文章是一样的，只不过是基于自己学习后的理解进行了一次总结复盘，而原文中主要是用Java来举例的，我这边主要用pyspark来举例。文章主要会从4个方面（或者说4个思路）来优化我们的Spark任务，主要就是下面的图片所示：（本小节只写了开发习惯调优哈）

2021-06-25

1.2K0

PySpark入门级学习教程，框架思维（中）

api sql spark python

在讲Spark SQL前，先解释下这个模块。这个模块是Spark中用来处理结构化数据的，提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。我们之前用过Python的Pandas库，也大致了解了DataFrame，这个其实和它没有太大的区别，只是调用的API可能有些不同罢了。

2021-04-26

4.3K0

PySpark入门级学习教程，框架思维（上）

https 网络安全 spark python

为什么要学习Spark？作为数据从业者多年，个人觉得Spark已经越来越走进我们的日常工作了，无论是使用哪种编程语言，Python、Scala还是Java，都会或多或少接触到Spark，它可以让我们能够用到集群的力量，可以对BigData进行高效操作，实现很多之前由于计算资源而无法轻易实现的东西。网上有很多关于Spark的好处，这里就不做过多的赘述，我们直接进入这篇文章的正文！

2021-04-26

1.5K0

金色传说，开源教程！属于算法的大数据工具-pyspark

spark scala 大数据官方文档

spark是目前大数据领域的核心技术栈，许多从事数据相关工作的小伙伴都想驯服它，变成"驯龙高手"，以便能够驾驭成百上千台机器组成的集群之龙来驰骋于大数据之海。

2021-01-18

1.2K0

BigData |述说Apache Spark

spark apache mapreduce api hadoop

Spark是一个Apache项目，被标榜为"Lightning-Fast"的大数据处理工具，它的开源社区也是非常活跃，与Hadoop相比，其在内存中运行的速度可以提升100倍。Apache Spark在Java、Scale、Python和R语言中提供了高级API，还支持一组丰富的高级工具，如Spark SQL（结构化数据处理）、MLlib（机器学习）、GraphX（图计算）、SparkR（统计分析）以及Spark Streaming（处理实时数据）。

2019-08-21

6630

【推荐收藏】7个小练习帮你打通SparkCore和SparkSQL编程任督二脉

spark 数据库 sql

本文将通过7个简单的小练习，对比示范SparkCore和SparkSQL编程的方法。除了WordCount词频统计这个典型的处理非结构数据的例子外，本文示范的大部分例子中，使用SparkSQL的编程接口都会更加简洁易懂。

2019-07-15

1.2K0

Big Data | 流处理？Structured Streaming了解一下

spark api python sql 数据处理

上一篇文章里，总结了Spark 的两个常用的库（Spark SQL和Spark Streaming），可以点击这里进行回顾。其中，SparkSQL提供了两个API：DataFrame API和DataSet API，我们对比了它们和RDD：

2019-07-08

1.1K0

BigData | 优秀的流处理框架 Flink

大数据 spark api windows 数据处理

Apache Flink就是其中的翘楚，它采用了基于操作符（operator）的连续流模型，可以做到微秒的延迟。Flink最核心的数据结构是Stream，它代表一个运行在多个分区上的并行流，它没有边界，随着时间的增长而不断变化，而且它是逐条进行操作的，每当有新数据进行就会被执行，这也是Flink低延迟的根本。

2019-07-08

8890

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态