需要帮助在pyspark中的for循环中添加dataframe_在我的python代码中添加受控循环时需要帮助_在pyspark dataframe中添加一个组合两列的新列 - 腾讯云开发者社区

pyspark、apache-spark-sql

我们在where子句中有需要应用于查询的条件列表 Conditions=[ Condition-2] 我们有这样的查询 for condition in Conditions: df = spark.sql("SELECT col1, col2 from tablewhere" + condition) 但是我们想要一个包含所有条件结果的最终数据帧，如何做that...our要求是这样的。

浏览 34提问于2021-10-31得票数 0

1回答

如何用pyspark中的map转换替换python中的for循环，在pyspark中，我们希望用多个条件比较前一行和当前行

pyspark、rdd

刚在pyspark dataframe上应用map函数时遇到了路障，需要你的帮助才能走出来。虽然问题更复杂，但让我用下面的例子来简化它，使用字典和for循环，并需要在pyspark中解决。下面是关于虚拟数据的python代码示例，我希望在pyspark映射转换中使用when、使用窗口的子句或任何其他方式相同。问题-我在下面的字典中有一个以列名为键的pys

浏览 0提问于2018-03-09得票数 0

1回答

pySpark 3.0如何裁剪所有列的空格[复制]

apache-spark、pyspark、apache-spark-sql

这个问题在这里已经有答案了：在Pyspark Dataframe中修剪 (3个答案) 3天前就关门了。对于此数据帧:如何修剪循环中每列的所有前导空格和尾随空格？['col1', 'col2','col3'] # add your columns label here df.show(5) 我知道如何通过如下方式指定每一列，但需要对循环中的所有列执行

浏览 19提问于2021-02-26得票数 0

回答已采纳

1回答

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非常容易地创建一个__init__.py模块，在其中实

浏览 6提问于2020-07-09得票数 1

2回答

Pyspark中的填充

pyspark、spark-dataframe

我有一个具有以下数据(所有列都有字符串数据类型)的Pyspark (原始数据)： 1 103我需要在value列中创建一个新的带有填充的修改的dataframe，这样该列的长度应该是4字符。如果长度小于4个字符，则在数据中添加0，如下所示： i

浏览 2提问于2017-07-30得票数 11

1回答

火花DataFrame提示函数的可能值是什么？

apache-spark-sql

在Spark DataFrame的hint函数中可以使用哪些可能的值我正在查看文档，但除了broadcast https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.hint之外没有太多帮助

浏览 10提问于2019-10-06得票数 1

回答已采纳

1回答

将一个函数应用到多个文件中，将数据加载到

python、pyspark

我有许多结构混乱的JSON文件。我想把这些解析成一个PySpark DataFrame。我编写了一个解析函数，并希望将其应用于目录中的每个文件，并将其输入到我的DataFrame中。我对PySpark完全陌生，所以任何帮助都是非常感谢的。我曾希望我能做一些事情来达到这样的效果： data_files = [...] #

浏览 4提问于2022-02-28得票数 0

回答已采纳

1回答

Python/PySpark并行处理示例

python、pandas、parallel-processing、pyspark、spark-dataframe

我在理解如何在我的python脚本中利用并行处理的能力时遇到了麻烦。(面包、糖果等)我的脚本：2.Filter pyspark dataframe for the subset (e.g. category == 'bread')我需要在迭代循环中<em

浏览 10提问于2018-03-04得票数 0

1回答

PYSPARK:-在不丢失null值的情况下分解dataframe中的数组：“DataFrame”对象没有属性“_get_object_id”

python、python-3.x、pyspark、pyspark-sql

调用下面的对象时出错是在不丢失空值的情况下分解dataframe中的数组，但在调用列时我得到错误，说对象没有属性‘_ code.This _ object _id’。需要帮助，在其他方式调用列，可以工作。from pyspark.sql import SparkSessionfrom pyspark.sql import Row

浏览 2提问于2018-07-05得票数 2

1回答

如何在Pyspark中将Int列转换为字符串？

pyspark、amazon-athena

由于我是Pyspark的初学者，有人可以帮助我将Integer列转换为字符串吗？这是我在Aws Athena中的代码，我需要将它转换为pyspark dataframe。

浏览 37提问于2020-01-14得票数 0

1回答

有没有一种方法可以将在for循环期间创建的变量写到pyspark中的dataframe中？

apache-spark、pyspark、pyspark-sql、pyspark-dataframes

我在for循环中创建了四个变量，我试图将这些变量写到pyspark中的dataframe中。然后，我想将这个数据写入一个拼图和csv文件中。有没有一种有效的方法。

浏览 2提问于2019-11-16得票数 0

回答已采纳

2回答

如何在Pyspark中使用Scala类

python、scala、apache-spark、pyspark、apache-spark-sql

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = { impor

浏览 3提问于2016-03-15得票数 29

回答已采纳

1回答

如何在Databricks pyspark中导入Excel文件

python、apache-spark、pyspark、bigdata

我正在尝试将我的excel文件导入Azure-DataBricks机器中的PySpark，我必须将其移动到PySpark Dataframe。我无法执行此操作。Error : field Additional Information: Can not merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.type

浏览 2提问于2018-09-18得票数 0

1回答

如何对pyspark* dataframe列应用函数*

python-3.x、dataframe、pyspark

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)'] = salesD

浏览 15提问于2020-01-03得票数 1

回答已采纳

6回答

如何在Pyspark中定义一个空的dataframe并将其附加到相应的dataframe？

pyspark、pyspark-sql

所以我想从一个目录中读取csv文件，作为pyspark dataframe，然后将它们附加到单个dataframe中。而不是像我们在熊猫身上做的那样，在pyspark中得到替代方案。例如，在熊猫中，我们这样做： for f in files:

浏览 5提问于2017-04-10得票数 11

2回答

用不同的列合并两个星火数据格式，以获得所有列

python、apache-spark、pyspark

AUS null brand2 450 230 我需要我的结果数据brand2 450 230因此，我想要的df应该包含来自这两个数据的所有列，我还需要所有行中的Dat

浏览 3提问于2021-08-19得票数 0

回答已采纳

1回答

spark流式传输到pyspark* json文件中的数据帧*

python、json、pyspark、spark-streaming

我需要火种的帮助。我正在从kafka流式传输json数据，我需要转换为pyspark中的Dataframe。为了流媒体，我使用了下面的代码。from pyspark.streaming import StreamingContextfrom pyspark.sqlimport SparkSession f

浏览 3提问于2017-07-30得票数 0

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

python、apache-spark、apache-spark-sql、pyspark、pyspark-sql

下面是创建pyspark.sql DataFrame的代码import pandas as pddf = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]),sqlContext.createDataFrame(df, samplingRatio=

浏览 0提问于2015-08-11得票数 6

1回答

pyspark.sql.utils.AnalysisException: Parquet数据源不支持空数据类型

apache-spark、pyspark、types、parquet、void

我试图在PySpark中的dataframe PySpark中添加一个列。我试过的密码：df1 = df1.withColumn("empty_column", F.lit(None)) 但我知道这个错误：pyspark.sql.utils.AnalysisException: Parquet数据源不支持空数据

浏览 23提问于2022-10-18得票数 3

回答已采纳

2回答

Pyspark将列列表放入聚合函数

python、apache-spark、pyspark、apache-spark-sql

我有一个关于Pyspark中的udf的问题和一个具体的案例。我正在尝试创建一个简单的、可重用的函数来聚合不同级别和组上的值。输入应为：现有数据帧 group by的变量(单列或列表) 要聚合的变量(同上) 要应用的函数(可以是一个特定的函数，也可以是它们的列表)。我保持简单的求和，平均，最小，最大值，等等。当我有一个单独的函数

浏览 60提问于2020-11-26得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云