编写python函数，在pyspark dataframe中自动执行数据标注

文章/答案/技术大牛

发布

1回答

、、、、

我有一个名为ARRIVAL DELAY的列，根据它的值，我必须编写一个python函数来自动执行数据标记。例如。小于5为早(0)，5到20为准时(1)，大于20为晚(2)。但该函数必须提前、按时和延迟地确定每个类别的范围(例如，使用bin大小)我的代码目前是硬编码的。from pyspark.sql.functions import when,col,lit flightsDf = flightsDf.withColumn("multiCl

浏览 34提问于2021-09-12得票数 1

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中<

浏览 34提问于2017-03-01得票数 1

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

、

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的dataframe中等)。我希望为它编写单元测试用例。我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些

浏览 1提问于2016-04-14得票数 3

2回答

可以从Scala调用python函数吗？

、、、、

我正在创建一个火花作业，它要求使用用python编写的函数将列添加到dataframe中。其余的处理是使用Scala完成的。我已经找到了如何从pyspark调用Java/Scala函数的示例：我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个dataframe发送到python函数，让函数操作数据并添加其他列，然后

浏览 3提问于2017-09-15得票数 5

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对

浏览 1提问于2018-05-17得票数 3

回答已采纳

2回答

如何在Pyspark中使用Scala类

、、、、

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = { import sqlContext.impli

浏览 3提问于2016-03-15得票数 29

回答已采纳

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在

浏览 0提问于2016-07-27得票数 1

1回答

PySpark:根据值中的字符列出列名

、

在PySpark中，我试图清理一个数据集。一些列的值中有不需要的字符(=“")。我将dataset作为一个DataFrame读取，并且我已经创建了一个用户定义的函数，它可以成功地删除字符，但是现在我很难编写一个脚本来识别我需要在哪些列上执行UserDefinedFunction。假设列总是包含类似的条目，我只使用数据集的最后一行。DataFrame (df)： id value1 valu

浏览 0提问于2018-09-24得票数 1

回答已采纳

2回答

斯卡拉是星火的必备品吗？

、

在它的文档中，它说它可以在Scala或Python中使用。一些博客说，火花依赖于scala (例如，)。因此，我想知道：scala是Spark的必修课吗？

浏览 2提问于2014-12-21得票数 6

1回答

我必须遵守pyspark* sql中的命令顺序吗？*

、

我正在学习pyspark sql，我不确定函数的顺序是否必须是下一个？在何处指定此顺序？我检查了，但它没有提到任何关于尊重命令顺序的内容。

浏览 2提问于2019-09-18得票数 0

1回答

PySpark DataFrame写入空(零字节)文件

、、

我正在使用Spark3.1.1版本的PySpark DataFrame API进行本地设置。在读取数据、执行一些转换等之后，我将DataFrame保存到磁盘。输出目录与part-0000*文件一起创建，输出目录中也有_SUCCESS文件。但是，我的part-0000*总是空的，即零字节。我试着用parquet和csv格式编写它，结果是一样的。在编写之前，我调用了df.show()以确保DataFrame中有数据。d

浏览 8提问于2022-05-11得票数 1

1回答

将Scala中的列表转换为Python或dataFrame

、、、、

我在Scala中有一个名为dataList的2d列表，我想将它转换为Pandas DataFrame。val dataList: List[List[Int]] = tempData.toList<class 'py4j.java_gateway.JavaObject'> 据我所知，我必须使用py4j来访问Python中的集合。但是，我认为我必须使用一个嵌套循环来访

浏览 4提问于2016-04-23得票数 4

回答已采纳

2回答

用于分配新列的列的值

、

在python中，您可以使用df.loc[df"A".isin(1,2,3)，"newColumn"] ="numberType"，编写一个过滤器并为一个新列赋值。这在火花放电中是如何工作的？

浏览 2提问于2022-11-21得票数 0

回答已采纳

1回答

传递由: PySpark引起的函数错误的java.io.EOFException映射转换

当我试图将一个函数传递给Spark的map方法时，我遇到了一些问题。我的问题似乎是在功能，但不确定它。) -> DataFrame:objc[54297]: +[__NSCFConstantString initialize] may ha

浏览 34提问于2022-10-28得票数 0

2回答

udf (用户定义的函数)是如何在火花放电中工作的？

、、、

我想了解udf在火花放电中的工作原理。每次我们在dataframe之上使用udf时，python都会打开吗？

浏览 0提问于2018-11-26得票数 1

回答已采纳

1回答

星星之火与火星之火的语义差异？

、

在语义上，火花是一个框架。def sum(a,b): return a-b2)如果我在火花上使用py

浏览 3提问于2020-03-02得票数 0

回答已采纳

1回答

为什么我不应该在Python转换中使用collect()？

、

TL;DR:我听说某些PySpark函数在转换中是不可取的，但是我不知道哪些函数是错误的，它们为什么是错误的？为什么我不能只在某些情况下将数据collect()到一个列表中，并对行进行迭代呢？

浏览 6提问于2020-09-25得票数 1

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。()root |-- SparseVector'> DenseVector <class '<

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

、、、

我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？而且，继续使用python可能更容易一些，因为我已经知道了python.So：我可以运行我的普通python代码的火花，但仍然得到所有的好处，如速度？你能把它们混合在一起，用python编写一部分代码，用pyspark编写一部分代码吗？

浏览 4提问于2017-08-30得票数 0

点击加载更多