Pyspark根据一列合并不同的行

文章/答案/技术大牛

发布

1回答

6|+----------------+------------+-----+ 如果来自同一项运动，有没有办法将多行计数的值结合起来例如，如果Sport =高山滑雪，我会有这样的东西： +----------------+-----++----------------+-----+

浏览 10提问于2021-08-02得票数 0

回答已采纳

2回答

在PySpark Dataframe中的列中合并重复行

、

我在PySpark数据框架中有重复的行，我想根据一列中重复的条目将所有行和sum合并成一行。20010 Deal 3 Client C 32 121 尝试PySpark

浏览 5提问于2022-11-04得票数 0

回答已采纳

1回答

C1FlexGrid :检查合并单元/动态合并

、、

我有一个网格，其中一些行正在根据公共标识符进行合并，这是第一列，我必须做以下事情，但我无论如何都做不到我想看看第一列是否合并了，那么第二合并行应该有一个不同的颜色，就像前面的列在第三列之后，但它没有发生我必须根据第一列合并前面的列(5,6,7,8,10,14)，但像合并第一列一样，它没有合并前面的列，因为它的</e

浏览 13提问于2014-09-25得票数 0

2回答

如何在pyspark中合并重复的列？

、、

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？

浏览 57提问于2021-06-18得票数 2

回答已采纳

1回答

仅合并匹配行上的一列

我有一个电子表格，其中有重复的记录(行)。通常我每条记录有两行，我需要一行。除了一列之外，各行都是相同的。是否有一种方法可以根据列A中的ID合并重复的行，而只合并列D 以B列为例，我不想合并这一列，因为它会提供错误的数字，因为D列每行有不同的单词。数据是当前。

浏览 9提问于2019-04-18得票数 0

1回答

从PostgreSQL中选择大型数据集时出现内存错误

、、

本地存储到Postgresql中的800万行稀疏数据。cur=conn.cursor('testCursor')cur.execute("select * from events&quo

浏览 0提问于2017-05-12得票数 0

1回答

在Azure的数据工厂中将不同数量的行合并为一行

、、

我是Azure Data Factory的新手，我在解决这个问题时遇到了问题。我想根据第一列的子字符串将不同数量的行合并到一行中，我知道我可以使用collect()，但问题是我没有键列。下面是我的数据在csv文件中的样子DREC12023 ALKBY23DREC23545..。我希望输出是这样的

浏览 11提问于2021-08-05得票数 0

1回答

如果列在不同行中的值相等，则合并两行或多行

、、、、

由于数据很大，我必须使用pyspark将不同行中的dataframe值(列表)组合起来。B| [4, 2, 5, 6]|| D|[11, 12, 15, 16]|我想按列表合并num_group，它具有如下相同的元素：(索引是一个无意义的值或字符串)| num_group| +-----

浏览 3提问于2017-12-28得票数 1

1回答

如何根据其他列使用Python在Spark中创建新列？

、、、、

我的数据库包含一列字符串。我将根据其他列的一部分创建一个新列。find(word): break 这段代码无法工作，并在collect()上给出了

浏览 6提问于2022-01-26得票数 0

回答已采纳

1回答

如何根据行的内容拆分pyspark数据

、、、、

我想根据DataFrame中一行的第一个字符来分割文件。原始数据有一列，数据包括输入样例文件(Pyspark)： 3文件名放在DataFrame的column2中，文件的内容放置在DataFrame的column2中。预期输出(Pyspark</e

浏览 3提问于2019-10-10得票数 1

回答已采纳

1回答

基于三个匹配列的数据融合

、、

谢谢您的帮助，我真的很难合并dataframes (我想将两个框架合并到下面的条件中)，但是它失败了，“意外地导致了合并的dataframes黄色-在图3中高亮显示)。我想根据前两列合并。第一排。如果两个帧中的第一列和第二列匹配在一起。->然后合并成一排。2)。如果两个框架中的第一列或第二列不匹配，但另一列匹配->创建一个新行。3)

浏览 6提问于2022-05-01得票数 0

1回答

查询-将列数据合并为行

、

我希望根据另一列(名称)合并不同行中的数据(name + value/s)。见下面的例子：A/b广告B= bdab广告这是可能的谷歌工作表查询吗？

浏览 4提问于2022-02-22得票数 0

回答已采纳

1回答

根据某些条件添加两行或更多行

、、、、

我有一个这样的数据帧：我想要的输出如下：目标是根据名称删除重复项，并将类别列数据合并到一列中

浏览 0提问于2021-09-06得票数 0

2回答

合并具有不同列值的pyspark数据帧行

、、、

我希望合并两个不同列值的dataframe行。union时Alex Smith 19Alex Smith 21 firstName lastName age Alex Smi

浏览 3提问于2022-10-30得票数 -1

回答已采纳

1回答

approxCountDsitinct与approx_count_distinct在spark函数上的差异

、、

有人能说出pyspark.sql.functions.approxCountDistinct (我知道它已经过时了)和pyspark.sql.functions.approx_count_distinct之间的区别吗？我在一个项目中使用过这两个版本，并且经历过不同的值

浏览 59提问于2020-09-02得票数 2

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

1回答

输入图像描述hereI想要创建一个视图它有一些列，所有的行都有相同的结果除了一列，如何合并或组合的所有行在一行，但一列不同的值我想要显示它们在一列，并用逗号拆分值。如果有办法通过查询显示给我看。ret_OperationalUnitFeaturs operation ON salaried`enter code here`.Guid = operation.SalariedGuid WHERE Deleted = 0 结果包括3<em

浏览 32提问于2019-04-17得票数 0

回答已采纳

3回答

pyspark:获取dataframe的每一列中的唯一项

、

我有一个包含一百万行和560列的spark数据帧。我需要找到dataframe的每一列中唯一项的计数。我已经编写了以下代码来实现这一点，但它被卡住了，并且执行起来花费了太多的时间： var=count_unique_items.append(data.select(var).distinct().rdd.map(lambda r:r[0]).count()) cat_col包含所有分类变量<e

浏览 9提问于2016-11-29得票数 0

1回答

合并第一列中重复项的倒数第二列

如果A的第一列重复，我想合并A的第2列到末尾的列A = [2 3 1; 2 6 8]B{1}=2 3 1 6 8B = [2 3 1 6 8;行顺序无关紧要。我的第一个计划是然后根据第一列将A划分为各种矩阵(即不同<

浏览 0提问于2013-07-31得票数 1

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

、

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

点击加载更多