Pyspark:连接可变列数的函数

文章/答案/技术大牛

发布

1回答

、、、

我想做一个函数，在这个函数中，我会告诉你，我想要加入多少列。如果我有3列的dataFrame，并给出一个参数"number_of_columns=3"，那么它将连接列: 0，1，2。但如果我有7列的dataFrame，并给出参数"number_of_columns=7"，那么它将连接列: 0，1，2，3，4，5，6。列的名称总是相同的

浏览 12提问于2021-04-01得票数 2

回答已采纳

1回答

如何在Pyspark中以编程方式解析固定宽度的文本文件？

、、

这篇文章很好地展示了如何使用pyspark ()将固定宽度的文本文件解析成Spark数据帧。我有几个要解析的文本文件，但每个文件的模式都略有不同。而不是像上一篇文章所建议的那样，为每个文件编写相同的过程，我想编写一个通用函数，它可以解析给定宽度和列名的固定宽度文本文件。我是pyspark的新手，所以我不确定如何编写列数和类型可变的select语

浏览 0提问于2017-09-08得票数 2

1回答

PySpark中可变列数之和

、、、

我有一个像这样的星火DataFrame：| Type|Criteria|Value#1Value#2', 'Value#3', 'Value#4', 'Value#5']df.show() 我的任务是添加“总计”列，它是所有值列的</

浏览 0提问于2018-08-07得票数 2

回答已采纳

1回答

有没有办法使用CONCAT(table_name(col1，col2，col3，.))连接可变数量的列？用红移吗？

、、、

我正在使用python脚本执行sql查询，该脚本传递一个具有可变列数的参数，并基于这些列与另一个表进行连接。有没有一种方法可以连接可变数量的列？我的问题是 DELETE FROM INPUT_SCHEMA.INPUT_TABLE A where and A.

浏览 14提问于2019-01-18得票数 1

1回答

PySpark动态连接条件

、、、

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s/yarn/use

浏览 0提问于2018-12-07得票数 2

1回答

Pyspark:如何将行分组为N个组？

我在pyspark脚本中执行df.groupBy().apply()，并希望创建一个自定义列，该列将我的所有行分组到N(尽可能均匀，所以行/n)组中。这就是为什么我可以确保每次脚本运行时发送到我的udf函数的组数。我如何使用pyspark来做这件事？

浏览 32提问于2020-07-21得票数 0

回答已采纳

1回答

如何在r中为单独的函数生成给定数量的列？

、、、

我使用separate函数来处理可变大小的文本。在separate函数中，需要详细说明文本被分隔的新列的名称。然而，在我的例子中，文本的长度是可变的。我想需要的列数是自动生成的。例如，我只是通过计算用于键分隔的字符数(在我的例子中是,)来计算所需的

浏览 13提问于2019-04-29得票数 0

回答已采纳

1回答

'DataFrame‘对象不支持项分配

、、、、

我将df作为一个pyspark.sql.dataframe.DataFrame导入到Databricks中。在这个df中，我有3列(我已经证实它们是字符串)，我希望将它们连接起来。我试过先使用一个简单的"+“函数。因此，我试图在每一列后面添加.astype(str)，但没有结果。最后，我尝试简单地添加另一列，其中满是数字5：也收到了同样的错误。所以现在我在想，也许这个数据是不可

浏览 1提问于2022-12-02得票数 0

2回答

如何将PySpark数据帧中的每个非字符串列与浮点型常量相除或相乘？

、、、、

我的输入数据框如下所示spark = SparkSession.builder.appName("Basics").getOrCreate

浏览 0提问于2017-06-29得票数 5

回答已采纳

1回答

将数据插入单个列，但在连接几列数据后以字典格式插入

、、、、

我希望在将单个列中的列数连在一起之后创建一个列，但使用PySpark格式的字典格式。 

浏览 12提问于2022-06-29得票数 -1

回答已采纳

6回答

如何在PySpark中找到DataFrame的大小或形状？

、、

我正在尝试在PySpark中找出DataFrame的大小/形状。我看不到有一个函数可以做到这一点。data.shape()row_number = data.count()列数的计算并不理想……

浏览 482提问于2016-09-23得票数 118

1回答

如何使用pyspark的connectedComponents获取图节点列表

、、、

我正在用Python学习PySpark。如果我使用下面的代码从我的图形中获取组件，那么就会使用组件(随机数)向我的GraphDataFrame中添加一列。但我很好奇，是否有可能得到一个连接节点的列表？ g.connectedComponents()

浏览 6提问于2022-04-09得票数 1

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表

浏览 3提问于2021-12-11得票数 0

4回答

Pyspark:有没有等同于pandas info()的方法？

、、、

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

2回答

SQL -如何克隆我的行，只更改一个字段？

、、、、

我使用的SQL与pyspark和hive一起使用，而且我对所有这些都很陌生。我手上有个问题，我不知道怎么解决。如果我有一张“人”的桌子，像这样：1 | Alice | Sarah;Tom"other_names“列中的名称数是可变的。| Tom2

浏览 6提问于2020-03-26得票数 2

回答已采纳

1回答

如何使用pySpark将items行中的数组列单元格转换为计数？

、、、

我有一个在一列中有多个值的数据集，并且我想计算每个值在数据集的所有行中出现的次数。+ 1 ++ val3 + 2 ++---------+-------+ 代码在pySpark中我使用了split函数来获取一个值数组。我有一个包含数组列的数据集，但我不知道如何正确使用它。我寻找了许多可以帮助我的示例和函数</e

浏览 15提问于2019-10-06得票数 0

回答已采纳

1回答

按日期将吡火花数据集拆分为两个

、、

我有pyspark数据集，我想按照datetime列将其划分为列车和测试数据集，其中，训练数据集的日期时间应该小于日期时间列的中位数，而测试数据集应该有其余的数据集。我尝试按datetime列对dataset进行排序，并选择上半部分。但是这只解决了火车部件的问题，我不知道如何从PySpark中的初始数据集中“减除”训练数据集。如果PySpark与Pandas ()函数有某种相似之处

浏览 0提问于2019-08-21得票数 0

回答已采纳

2回答

DataFrame中元组作为数据的元组导致AttributeError：' Tuple‘对象没有属性'encode’

、、、、

spark.createDataFrame(([x[0],*x[1]] for x in sdata), schema=columns) AttributeError：'tuple‘对象没有属性'encode’ 如何加载此可变长度数据

浏览 8提问于2022-12-03得票数 0

回答已采纳

1回答

pySpark DataFrame:如何并行比较两个数据帧的列？

、、、

我有两个DataFrames，我想对这两个DataFrame的每一列应用distance.euclidean(df1.select(col),df2.select(col))。示例： from pyspark.sql import SparkSessionfrom pyspark.sql.typesrdd.flatMap(lambda x:x).collect(), df2.select(col).rdd.flatMap(la

浏览 9提问于2020-07-11得票数 0

2回答

PySpark:范围内的随机数(基于一列)

、、、、

我正在尝试生成一个列，每一行都有一个随机数，但是这个数字必须在已经存在的列和-1之间。A -15 -3 C -13 -6random_mon

浏览 21提问于2022-01-21得票数 1

回答已采纳

点击加载更多