从PySpark数据框中的重复行中提取和替换值_将PySpark数据框组中的值替换为最大行值_从数据框中采集列和行中同名的值 - 腾讯云开发者社区

pyspark、apache-spark-sql、jupyter-notebook、rdd

我有重复的行，可能包含相同的数据或在PySpark数据框中有缺失值。我写的代码非常慢，并且不能作为分布式系统工作。有谁知道如何从PySpark数据帧中的重复行中保留单个唯一值，该数据帧可以作为分布式系统运行，并且具有快速的处理时间？我已经

浏览 25提问于2019-06-21得票数 0

1回答

Apache v2.3.0中的动态数据架构构建

python、python-3.x、apache-spark、pyspark、apache-spark-sql

一个玩具示例工作得很好，它的模式是使用静态定义定义的。动态定义的模式会引发错误，但是为什么，以及如何修复？他们看起来是一样的。StructField("nfl",IntegerType(),True)])df = sess.createDataFrame(XXX, schema)好的产出username_field + int_fields)df = sess.createDataFrame(XXX,

浏览 0提问于2018-06-15得票数 0

2回答

为什么groupBy()比pyspark中的distinct()快得多？

pyspark

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给我解释一下或者给我

浏览 0提问于2018-09-11得票数 6

1回答

如何选择Pyspark列并将其作为新行添加到数据框中？

apache-spark、pyspark、pyspark-sql、pyspark-dataframes

我想提取一列，并将其值作为新行附加到数据框中。例如，如果我有一个这样的数据框： ---------------------------------------------------------------------------------------------------------------------

浏览 18提问于2019-12-29得票数 0

回答已采纳

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

azure、pyspark、apache-spark-sql、azure-synapse

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。文件"/opt/spark/python/lib

浏览 3提问于2021-11-25得票数 0

1回答

从pandas dataFrame中去掉NaT和重复项，以获得一系列日期时间值

python、pandas、dataframe、datetime

我有一个数据框，看起来如图所示 ? 数据帧形状为(1944900)。数据帧的每一行都有一个值(根据行索引，可能会重复多次)。我需要提取一个包含1944个数字的列表，每个数字代表每行中的有效值(不包括NaT和重复的值)。对此有什么想法吗？

浏览 159提问于2021-10-25得票数 0

1回答

MS报告，重复值的麻烦

reporting-services、row、reporting、rows

MS Reporting提供了两种类型的表(对不起，我不记得是什么属性造成的)╔══════╦══════╦══════╗╠════║║ 8 ║ ghi ║ 529 ║╚══════╩══════╩══════╝║ 8 ║ ║ ║ ║ 9 ║ ║

浏览 1提问于2013-08-20得票数 0

1回答

从字符串列中提取每个不同的单词，并将它们放入新的dataframe中。

python、dataframe、apache-spark、pyspark

我正试图在中找到列中的所有字符串。输入df： 1 "book bike car"我需要输出df，比如：( word_index值是自动增量索引，"val_new“中的值顺序是随机的car TV bike')], ['id', 'val']) df = df.withColumn('val_new&#x

浏览 6提问于2020-11-09得票数 1

回答已采纳

1回答

使用python或pyspark中的regex从字符串中提取所需的字符之间的数据。

python、dataframe、pyspark、apache-spark-sql

我想从dataframe列的行中的字符串数据中提取几个字符之间的数据。例如，列中的数据如下所示：|subscription |因此，我应该

浏览 3提问于2022-03-30得票数 -3

回答已采纳

4回答

合并来自不同数据框的列

r、join、merge、dataframe

我有两个数据帧 name from to result 1169025 69289 0 11 70172 70560 0 11 69025 69289 12 11 70172

浏览 0提问于2012-01-06得票数 2

回答已采纳

1回答

在Intellij Idea中提取未打开的方法对话框

java、intellij-idea

每当我试图通过提取一个方法来重构任何代码，无论是从“重构”菜单中提取一个方法，还是使用快捷方式“ctrl+ alt +M”，该方法都会直接被命名为“提取”，并且对话框不会打开，在该对话框中，我可以更改方法的名称和隐私而且，它不会用新创建的方法替换任何重复的代码块。对话框没有打开的原因吗？谢谢

浏览 6提问于2021-12-05得票数 0

回答已采纳

1回答

从XML提取文本时保留行提要和回车返回

xml、vb.net

我需要从包含文本中的行提要的XML文件中提取数据。行提要位置被标记为“使用XmlTextReader和XmlDocument，我可以成功地提取所需的数据，并将其显示在消息框和文本框中。消息框输出中显示的文本显示了相关的行提要，但是文本框</e

浏览 1提问于2014-05-05得票数 0

回答已采纳

1回答

根据其他列替换pyspark列

pandas、pyspark、apache-spark-sql

在我的"data“数据框中，我有两列，”time_stamp“和”hour“。我想在缺少'time_stamp‘值的地方插入'hour’列值。我不想创建新列，而是在'time_stamp‘中填充缺少的值我想要做的是将这个pandas代码替换为pyspark代码： data['time_stamp

浏览 8提问于2019-03-21得票数 0

回答已采纳

3回答

如何在Pyspark中替换dataframe的所有空值

dataframe、null、pyspark

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。_2null null125 124and so on 当我想对column_1求和时，我得到的结果是一个空值现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些

浏览 1提问于2017-02-18得票数 56

回答已采纳

2回答

使用datatable中的值填充网格视图中的文本框

c#、asp.net、gridview、datatable、sqldataadapter

我有一个显示学生的网格视图，每行都有一个文本框，可以在其中输入他们的分数。我试图从数据库表中提取当前的'Mark‘值，并将其放入特定学生的文本框中，但是数据表中的最后一个值对每个学生都是重复的。如何让datatable值分别填充网格视图的每一<em

浏览 1提问于2018-04-13得票数 0

1回答

如何处理不同类型的PySpark自定义项返回值？

list、dataframe、pyspark、typeerror、user-defined-functions

我有一个只有一列的数据框。在此数据框的每一行中，都有一个列表。1，并将列表中的第二个数字加1.5。def calculate(mylist) : y = mylist[1] + 1.5 return x,y 问题是，当我对我的数据框应用这个函数时，它会返回x: calculate(x), ArrayType(Inte

浏览 25提问于2020-01-23得票数 0

回答已采纳

1回答

将3级嵌套字典键值转换为pyspark* dataframe*

dataframe、apache-spark、pyspark、partition

我有一个Pyspark数据框架，看起来像这样： ? 我想提取"dic“列中的那些嵌套字典，并将它们转换为PySpark数据帧。如下所示： ? 另外，每一行中的键也会有一些变化，例如，一些行可能有其他行没有的字段。我希望包括所有字段，如果一条记录没有某些字段/keys，则该值可以显示为"null“。请告诉我如何才能做到这

浏览 22提问于2020-07-22得票数 0

1回答

如何提取pandas数据框列中的数据框

python、pandas、dataframe、data-analysis、exploratory-data-analysis

从pandas数据框(3* 5)中，如何将一列(包含数据框对象的行作为值(每行数据框2* 10) )提取到单独的数据框(6* 10行) log_df['df_inside'] = log_df['input'].apply(lambda x :parser(x)) par

浏览 22提问于2021-06-22得票数 0

2回答

从pandas数据框中提取数据

python-3.x、pandas、pandas-groupby

我想根据列值从一个更大的数据框中创建一个数据框列表。例如1,2,3,1,2,3,4,5,1,2，列"ID"可以重复。这可以在不使用for循环的</em

浏览 0提问于2018-10-20得票数 2

1回答

具有给定术语的文档的PySpark* HashingTF计数*

dataframe、pyspark、tf-idf

我有一个spark数据框，其中的" text“列有一些文本。我想要计算出现各种单词的行数-本质上是出现“术语”的“文档”的数量-以及相关的计数，如最频繁的单词，具有最频繁单词的行(或称为文档)。我正在使用来自pyspark.ml.feature的HashingTF。但是似乎找不到一种有效的方法来从输出中提取这些信息。H

浏览 25提问于2021-08-31得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云