如何在pyspark中应用函数？_如何在pyspark中执行嵌套应用？_Pyspark在dataframe上应用函数 - 腾讯云开发者社区

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

在pyspark中的列上具有某些条件的多个列上的Dataframe连接

、、、

line 1, in <module> File "/opt/cloudera/parcels/CDH-5.10.2-1.cdh5.10.2.p2667.3017/lib/spark/python/pyspark

浏览 1提问于2018-05-25得票数 0

2回答

无法导入模块'lambda_function'：没有名为'pyspark‘的模块

、、

我正在尝试使用AWS Lambda函数运行我的PySpark作业代码。下面是错误:无法导入模块'lambda_function'：没有名为'pyspark‘的模块from pyspa

浏览 0提问于2018-12-11得票数 0

1回答

用火花放电流到HBase

、、、

在线上有相当数量的关于使用Scala进行星火流的批量加载的信息( 是特别有用的)，以及一些用于PySpark的信息，但是使用PySpark似乎缺乏这样的信息。所以我的问题是： streamingContext.awaitTermin

浏览 2提问于2016-01-29得票数 3

1回答

使用pyspark从s3读取流数据

、、、、

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直到最近我还以为只能使用scala和java才能做到这一点，但我今天才发现Spark1.2以后的版本，pyspark也支持流媒体，但不确定是否支持S3流媒体？我如<

浏览 1提问于2015-04-11得票数 2

2回答

如何在pyspark中应用函数？

、

我有一个返回特定日期的函数，如下所示： def specific_date(date_input):+----------+----+---+----+----+----+----+ df1.createOrReplaceTempView("vw") 然后，如果我调用一个函数

浏览 5提问于2020-11-10得票数 0

回答已采纳

1回答

如何在调试模式下调用PySpark？

、、、、

我在ApacheSpark1.4中设置了IntelliJ IDEA。我目前正在运行这个Python来初始化星火进程。

浏览 5提问于2015-07-06得票数 22

1回答

获取执行者任务在pyspark中的任务id

、、

我在pyspark中有一个rdd.foreachPartition(some_function)操作。some_function函数将executor中当前任务的数据写入所有executor通用位置的文件(如hdfs或s3 bucket)。但是在任何地方都找不到，如何在pyspark中获取任务ID。我在scala/java中找到了一些，但在pyspark中找不到。更新:按照建议，我查看了。然而，当我对每个阶段中</

浏览 0提问于2018-05-05得票数 2

1回答

如何将索引转换为PySpark* DataFrame？*

、、、

我有一个PySpark DataFrame，类似：------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用pyspark将列表

浏览 2提问于2019-08-20得票数 1

回答已采纳

3回答

调试python-spark代码的最佳实践

、、

我现在这样做的方式是启动pyspark shell，复制粘贴，然后逐行执行代码。我想知道是否有更好的方法。如果pdb.set_trace()能够工作，那么它将是一个更有效的选择。但是，在shell中输入的任何pdb命令都会被挂起。pdb.set_trace()被插入在spark函数调用之间，据我所知，应该在本地运行的驱动程序中执行，并附加一个终端。

浏览 0提问于2018-03-13得票数 8

1回答

用火花放电写自定义的联非新议程

、、、

我需要编写一个自定义的pySpark，我遇到了这个例子。在类似的行中，如线程的最后一部分所示，我提出了以下函数 StructField("keybloomfilter如</em

浏览 1提问于2019-04-04得票数 1

2回答

如何正确循环和构建pyspark* dataframe*

、、、、

我已经完成了Pyspark dataframe的逻辑，现在必须应用不同的输入并组合结果。我想知道创建一个UDF并多次调用它是否对性能有任何好处，而不是遍历这些值，如下所示。

浏览 0提问于2019-07-03得票数 1

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsimport splitfrom pyspark.sql.types import * .builderforma

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

用PySpark计算形状值

、、、、

我正在寻找一种方法来减少在我的大型数据集上计算SHAP值所需的计算时间(大约180米行，6个特性)，我遇到了这个，讨论了如何在SHAP上使用PySpark。代码片段演示了如何在PySpark中使用Pandas并行化应用扩展程序。我们定义了一个名为calculate_shap的熊猫UDF，然后将这个函数传递给mapInPandas。然后使用此方法将并行化方法应用于PySpark数据。我们将使用这个UDF来运行SHAP性能测试。我不太明白P

浏览 6提问于2022-07-28得票数 2

3回答

如何从RDD[PYSPARK]中删除重复的值

、、

我有以下表格作为RDD：1 y1 y1 n2 n我想从Value中删除所有的重复项。输出应如下所示：1 y2 y在pyspark中工作时，输出应该是如下所示的键值对列表：我不知道如何在这里应用for循

浏览 4提问于2014-09-18得票数 14

回答已采纳

1回答

如何在postgres驱动程序中使用nextval()？

、、、、

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。id使用nextval('my_sequence')从序列中获取其值。PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。我可以看到，在读取数据()时可以调用Postgres方法，但我不确定如何调用Postgres函数</e

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

没有为方案配置AbstractFileSystem : gs

、、

at org.apache.hadoop.fs.AbstractFileSystem.createFileSystem(AbstractFileSystem.java:160) 我能够在命令行中运行

浏览 13提问于2021-12-09得票数 0

2回答

斯卡拉是星火的必备品吗？

、

在它的文档中，它说它可以在Scala或Python中使用。一些博客说，火花依赖于scala (例如，)。因此，我想知道：scala是Spark的必修课吗？

浏览 2提问于2014-12-21得票数 6

1回答

Spark中的withField

、、、、

在PySpark中，我们可以使用# | |-- _1: long (nullable = true)如何在中使用df.explain(True) #

浏览 10提问于2022-08-03得票数 2

回答已采纳

1回答

我需要安装Hadoop才能使用Pyspark的所有方面吗？

、、、

我已经安装了pyspark，但没有单独安装任何hadoop或spark版本。显然，在Windows下，pyspark需要访问Hadoop的winutils.exe来做一些事情(例如，将文件写入磁盘)。当pyspark想要访问winutilis.exe时，它会在HADOOP_HOME环境变量(用户变量)指定的文件夹的bin目录中查找它。因此，我将winutils.exe复制到pyspark (.\site-packages\pyspark\bin)的bin目录中，并将HA

浏览 4提问于2020-03-24得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在使用PySpark时，如何在Spark中实现Python数据结构？

在pyspark中的列上具有某些条件的多个列上的Dataframe连接

无法导入模块'lambda_function'：没有名为'pyspark‘的模块

用火花放电流到HBase

使用pyspark从s3读取流数据

如何在pyspark中应用函数？

如何在调试模式下调用PySpark？

获取执行者任务在pyspark中的任务id

如何将索引转换为PySpark* DataFrame？*

调试python-spark代码的最佳实践

用火花放电写自定义的联非新议程

如何正确循环和构建pyspark* dataframe*

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

用PySpark计算形状值

如何从RDD[PYSPARK]中删除重复的值

如何在postgres驱动程序中使用nextval()？

没有为方案配置AbstractFileSystem : gs

斯卡拉是星火的必备品吗？

Spark中的withField

我需要安装Hadoop才能使用Pyspark的所有方面吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐