在pyspark dataframe中检索最大值时遇到问题

文章/答案/技术大牛

发布

1回答

、、、、

在我通过使用窗口和对一组列进行分区来计算pyspark dataframe中每行5行内的平均数量之后 from pyspark.sql import functions as F prep_df =consecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window)) 我尝试使用相同的组进行分组，并选择平均值的最大值= consecutive_df.g

浏览 14提问于2020-06-19得票数 0

回答已采纳

5回答

火花放电中柱的比较

、、

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,在PySpark中是否存在这样的方法，或者我是否应该将PySpark df转换为Pandas，然后执行这些操

浏览 7提问于2016-06-07得票数 29

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。()root |-- SparseVector- old_DenseVector: vector (nullable = tr

浏览 1提问于2016-07-31得票数 7

回答已采纳

2回答

配置单元orc表的sqoop导出

、、

我有一个由pyspark dataframe_writer填充的orc格式的蜂窝表。我需要将这个表导出到oracle.我在导出表时遇到问题，因为sqoop无法解析orc文件格式。

浏览 0提问于2017-02-22得票数 0

1回答

Pyspark:获取嵌套结构列的数据类型

、、、

问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-columns/ 如果我有这样的格式编辑: Json文件当然已经写在dataframe中，我的问题是如何查询dataframe</em

浏览 42提问于2021-10-22得票数 0

3回答

withColumn不允许我使用max()函数生成新列

、、、

= sc.parallelize([[1,2,3],[0,2,1],[9,8,7]]).toDF(["one", "two", "three"]) File "<stdin>", line 1, in <module> File "/opt/spark152/python

浏览 6提问于2016-06-15得票数 6

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.sque

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

GroupedData上的方差计算

、、、

我试图在GroupedData 2中计算PySpark对象的方差，而在中，我没有看到任何用于计算方差的内置函数。from pyspark.sql import * from pyspark.sql.sessiondf = spark

浏览 3提问于2017-10-21得票数 0

回答已采纳

1回答

在pyspark中创建具有特定数据类型的dataframe时遇到问题

、

SampleCSV2.csv的数据如下：BBB|28|Comp|100.5from pysparkimport SparkContext, SparkConf, SQLContext from pyspark.sql.types import StructType, StructField, DoubleType, IntegerType, Stri

浏览 6提问于2017-09-04得票数 1

回答已采纳

1回答

显示组和agg之后的所有火花放电列

我希望按一列分组，然后找到另一列的最大值。最后，显示基于此条件的所有列。然而，当我使用我的代码时，它只显示2列，而不是所有列。# Normal way of creating dataframe in pyspark (2,2,'0-2spark.createDataFrame([ (5,7,'6-8')], ['a

浏览 0提问于2020-01-19得票数 0

回答已采纳

2回答

Spark DataFrames中的argmax :如何检索具有最大值的行

、

给定一个Spark DataFrame df，我想在某个数值列'values'中找到最大值，并获得达到该值的行。我当然可以这样做：# since I hope I get this done with DataFrameAPImax_value = df.select(F.max('values')).coll

浏览 0提问于2016-08-07得票数 15

回答已采纳

1回答

使用(Py)火花设置蜂巢任务

、、

我需要使用pySpark在我的一个Hive表中设置一个自定义属性。通常，我只需在任何Hive接口中运行此命令即可：但问题是，我能否在pySpark脚本中完成同样的任务？

浏览 0提问于2018-11-12得票数 0

回答已采纳

1回答

PySpark - Spark数组与DataFrame列表是否不同？

、、、、

如果我有一个包含arrays的Spark，我可以通过DataFrame在这些数组上使用Python List方法吗？如何将Spark DataFrame array<double>转换为Python列表？from pyspark.sq

浏览 1提问于2016-10-28得票数 4

回答已采纳

2回答

合并具有不同列值的pyspark数据帧行

、、、

我希望合并两个不同列值的dataframe行。18firstName lastName age 结果当我使用merge DataframeA和DataframeB使用union时Alex Smith 19Alex Smith 21 firstName lastName age Alex

浏览 3提问于2022-10-30得票数 -1

回答已采纳

1回答

如何从HDFS读取配置单元数据

、、、

我在HDFS hdfs://localhost:8020/user/ hive /warehouse中有配置单元仓库。我在hdfs中有一个数据库mydb，比如hdfs://localhost:8020/user/hive/warehouse/mydb.db请给出建议

浏览 31提问于2018-01-23得票数 1

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的认知工作，以及如果

浏览 0提问于2016-07-27得票数 1

1回答

pyspark中字符串类型的列中空格分隔值的最大值

、、

我的dataframe中有一个字符串类型的列，值为'1 1 1 3‘。我需要用pyspark中的值的最大值来更新列。我尝试过使用UDF将字符串转换为列表，然后再转换回字符串。

浏览 18提问于2021-10-08得票数 0

回答已采纳

5回答

DataFrame对象没有属性“col”

在“火花:最终指南”中，它说： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'DataFrame' object has no<em

浏览 2提问于2018-08-12得票数 9

1回答

除了collect()之外，还有什么方法可以从Pyspark中的列中获取最大值吗？

、

我想从pyspark dataframe中的date类型列中获取最大值。

浏览 0提问于2020-06-04得票数 2

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

点击加载更多