在pyspark中的不同列上的自连接？

、、、

我有这样的pyspark数据帧 df = sqlContext.createDataFrame([ Row(a=3, b=2),| a| b|| 1| 3|+---+---+ 我像这样尝试了自连接 df1 = df.alias("df1") df2 = df.alias("理想情况下，我希望找到一个邻居常见的所有配对。(3对于1，2都是通用的

浏览 62提问于2021-07-22得票数 1

回答已采纳

1回答

在pyspark中连接不同的列

如何连接两个不同列上的pyspark dataframe？

浏览 1提问于2019-03-22得票数 1

1回答

我在一个+1100万行数据集中做了一些清理，其中包含了噪音很大的企业名称。我想做一些正则表达式的清理(删除标点符号、空格、数字、重音和一些问题)，然后应用一些近似的字符串匹配算法，比如TF或BM25，但这是另一个问题。这是我的前五行(包括标题)。为了达到清理数据集的目标，我首先得到了所有不同的“脏”名称，所以我用pyspark读取数据集并运行： #in the map method I split the string and select t

浏览 3提问于2021-05-31得票数 0

1回答

多列上的多聚合

、、

我使用Python在Pyspark框架中。我试图使用groupby在不同的列上应用不同的聚合。我有一个包含col1、col2、col3、col4列的df，我想做这样的事情：df.groupby("col1").sum("col2", "col3").avg("col4") 但是我发现了一个错误："/u

浏览 4提问于2019-09-27得票数 0

回答已采纳

1回答

从一个ArrayType数据中获取PySpark列，并在另一个数据中获取相应的值

、、、、

我有两个数据格式，一个称为项目集，另一个称为运行FPGrowth的规则。在第一种情况下，我需要向规则dataframe中添加一个新列，该列具有来自itemset dataframe的相应频率。因此，例如，在结果为7084781116的情况下，新列将具有来自itemset dataframe的数组的频率(10492，通过第一行)。接下来，我需要将结果的值附加到前面，然后执行相同的操作。例如，看看规则列中</e

浏览 1提问于2019-08-01得票数 1

回答已采纳

1回答

在pyspark中的列上具有某些条件的多个列上的Dataframe连接

、、、

trim(d2.i))) > d2.j and length(upper(trim(d1.a))) = (d1.j+3)".format(dataBase, month_end)) File "/opt/cloudera/parcels/CDH-5.10.2-1.cdh5.10.2.p2667.3017/lib/spark/pyth

浏览 1提问于2018-05-25得票数 0

1回答

PySpark在广泛的列上获取不同的值

、、

我有大量自定义列的数据，我对这些列的内容不太了解。这些列名为evar1 to evar250。我想要得到的是一个具有所有不同值的表，以及这些值发生的频率和列的名称。我所能想到的最好的方法让我感觉很糟糕，因为我认为我必须每列读一次这个数据(实际上大约有400个这样的列)。更新我看到的可能是非常宽<em

浏览 3提问于2017-08-18得票数 3

回答已采纳

1回答

不带别名的PySpark自连接

、

我有一个DF，我想要left_outer与它自己连接，但是我很乐意用pyspark而不是别名来实现它。所以是这样的：df2 = df 有趣的是，这是不正确的。有没有一种不用别名就能做到这一点的方法？还是用化名的干净的方式？别名确实使

浏览 2提问于2021-12-23得票数 -1

1回答

内连接和反连接有什么区别？

、、、

我对PySpark中的联接术语感到非常困惑。我将列出我如何理解这两个联接，我只想知道我的理解是否正确，因为我觉得文档更令人困惑而不是有用。意味着仅连接dfA和dfB在用户列上有公共元素的行。(用户列上A和B的交集)。dfA.join(dfB, 'user', '

浏览 0提问于2018-12-14得票数 1

回答已采纳

2回答

使用python将两个spark数据帧合并到一个模式中

、、、

我有两个不同的pyspark数据帧，需要合并成一个。有一些逻辑需要为合并编码。其中一个数据帧具有以下模式：(id，类型，计数)，另一个具有模式：(id，timestamp，test1，test2，test3) 第一个数据帧是通过sql "group by“查询创建的。可以有重复的ids，但ids的类型将有所不同。并且，对于给定的类型，有一个相关的计数。在最终的模式(合并后的</e

浏览 46提问于2020-01-29得票数 0

回答已采纳

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply(convert_USD_INR,

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

如何使用PySpark的RegexTokenizer从字符串中删除数字？

、、

我想使用PySpark的RegexTokenizer从DataFrame列中删除5位或更多位的数字。我可以使用下面的代码提取这些数字，但有人知道我如何删除它们吗？我的代码： regexTokenizer = RegexTokenizer(inputCol="description", outputCol="tokenized_description", gaps

浏览 0提问于2019-02-13得票数 0

1回答

用字典连接vs映射，将新数据添加到Pandas/PySpark？

、、

我有一个大数据与天气列，可以采取5个不同的数值(晴天，多云，雨，雪和其他)。我必须添加另一列，更多的信息，完全取决于天气值(例如。如果是晴天，将值x添加到新列，如果是阴天，则添加值y，.)。要么使用另一个具有天气列(此列上的join )和一个"new_data“列来添加这些新值(5行和2列)的小数据行进行连接，要么使用一个字典将数据的每一行映射为一个以天气值作为键和要添加的新数据作为值的字典"]

浏览 2提问于2021-05-26得票数 2

回答已采纳

1回答

多列上的pySpark连接数据帧

、、、、

我使用下面的代码来连接和删除两个数据帧之间的复制。implicit cartesian products by setting the configuration variable spark.sql.crossJoin.enabled=true; 我的df1有15列，我的df2有50+列。如何在不对要连接的列进行硬编码的情况下连接多个列？我可以加入cols的列表吗？我需要避免硬编码名称，因为cols会因大小写而不同

浏览 36提问于2020-06-08得票数 0

回答已采纳

1回答

使用PySpark整数列作为参数

我正试图解析一个PySpark列，其中包含一个"=“号。我为此目的创建的两个函数分别工作：同时，当我创建子字符串列时我收到一个错误：TypeError: int()参数必须是字符串或数字，而不是‘列’问题似乎是PyS

浏览 4提问于2017-08-11得票数 0

1回答

根据相等的列值添加另一列

、、、

PySpark:可能是重复的，找不到类似的问题。------2 | 4 | q4 | 7 | sp | q1 | Yes3 | Yesa | b | c | q1 | 3 | p | Yes3 | 4 | r | Yes 请帮助如何

浏览 0提问于2022-03-03得票数 0

1回答

不同列上不同的聚合操作

我正在尝试将不同的聚合函数应用于pyspark中的不同列。按照关于堆栈溢出的一些建议，我尝试了以下方法：the_columns2 = ["customer1","customer2"(c)) for c in the_columns2] df.groupby(*group).agg(*exprs) 其

浏览 2提问于2017-11-04得票数 1

回答已采纳

4回答

不带长度的pyspark‘`substr’

、、

在pyspark中，有没有一种方法可以在DataFrame列上执行substr函数，而不指定长度？也就是说，像df["my-col"].substr(begin)这样的东西。

浏览 0提问于2019-09-10得票数 0

2回答

Pyspark将列列表放入聚合函数

、、、

我有一个关于Pyspark中的udf的问题和一个具体的案例。我正在尝试创建一个简单的、可重用的函数来聚合不同级别和组上的值。输入应为：现有数据帧 group by的变量(单列或列表) 要聚合的变量(同上) 要应用的函数(可以是一个特定的函数，也可以是它们的列表)。我保持简单的求和，平均，最小，最大值，等等。当我有一个单独<em

浏览 60提问于2020-11-26得票数 0

回答已采纳

1回答

为什么代码有问题？我与星团相连

我试图应用一个UDF函数来绕过那些pct，也许有更好的方法，我对它是开放的，因为我对火花放电很陌生。当我删除udf函数以放弃舍入数字时，它起了作用，所以我对dataframe很有信心。各位，天才，请帮帮我，爱与和平from pyspark.sql.types import IntegerType round_func = udf(lambda x:round(x,2), IntegerType()

浏览 5提问于2019-09-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在pyspark中连接不同的列

不同的SQL语句和pyspark的不同方法之间的不同输出

多列上的多聚合

从一个ArrayType数据中获取PySpark列，并在另一个数据中获取相应的值

在pyspark中的列上具有某些条件的多个列上的Dataframe连接

PySpark在广泛的列上获取不同的值

不带别名的PySpark自连接

内连接和反连接有什么区别？

使用python将两个spark数据帧合并到一个模式中

如何对pyspark* dataframe列应用函数*

如何使用PySpark的RegexTokenizer从字符串中删除数字？

用字典连接vs映射，将新数据添加到Pandas/PySpark？

多列上的pySpark连接数据帧

使用PySpark整数列作为参数

根据相等的列值添加另一列

不同列上不同的聚合操作

不带长度的pyspark‘`substr’

Pyspark将列列表放入聚合函数

为什么代码有问题？我与星团相连

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐