Spark DataFrame中的结构排序数组

、、

(nullable = false)除了使用自定义函数之外，有没有其他方法可以按value对arr进行排序我见过org.apache.spark.sql.functions.sort_array，这个方法在复杂数组元素的情况下到底是做什么的？是否按第一个元素(即id?)对数组进行排序？

浏览 12提问于2017-11-27得票数 5

回答已采纳

1回答

如何在不使用Spark的情况下对Spark中的数据进行排序？

、、

我现在正在使用Spark，但是我发现在Spark中使用对DataFrame进行排序非常缓慢。那么，如何在没有Spark的情况下对DataFrame进行排序呢？

浏览 4提问于2015-04-20得票数 2

回答已采纳

1回答

如何将数据架构的字符串拆分为每个结构

、、

我想将dataframe的架构拆分为一个集合。我正在尝试这个方法，但是模式被打印成一个字符串。我是否可以将其拆分为每个StructType的集合，以便对其进行操作(比如只从输出中提取数组列)？我试图平平一个复杂的多层次的结构+数组数据。output.toList 目前的输出是 identifyArrayColumns: (dataFrame: org.ap

浏览 0提问于2018-03-09得票数 0

回答已采纳

1回答

在Spark-Scala中，如何将数组列表复制到DataFrame中？

、

我想构建一个DataFrame，它的结构由以下语法描述：val trainingVectors.dense(1.3, 1.0)),)).toDF("label", "features")目前我的数据在数组

浏览 6提问于2016-09-25得票数 0

1回答

如何从火花放电中的字符串中创建相同的结构数组？

、、、、

我编写了将字符串转换为结构数组的代码。我也想在python上做同样的事情。你知道我该怎么做吗？import org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnval df: DataFrame = Seq( "adserviceCalculateCpcAlgori

浏览 3提问于2022-08-02得票数 0

回答已采纳

3回答

如何在Spark* DataFrame中按特定列对结构类型的数组进行排序？*

、、

给定以下代码：import org.apache.spark.sql.SparkSession import spark</e

浏览 3提问于2018-04-05得票数 6

回答已采纳

1回答

在Spark中对DataFrame进行排序时，幕后会发生什么？

在Spark中对DataFrame进行排序时，幕后会发生什么？例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么，但是我很好奇当您排序时会发生什么

浏览 2提问于2018-08-14得票数 0

2回答

使用Scala/Java API基于外部数组内容的自定义排序

、、、

---------+| SuperiorCard|| Distinguish|我有一个自定义顺序的数组，我希望数据集按数组中给定的顺序排序。+-------------+| Vista|| SuperiorCard|如何使用sparkJava API实现

浏览 0提问于2019-05-08得票数 2

1回答

使用spark对包含多列的大型DataFrame进行排序，原因超过spark.driver.maxResultSize

、、

，但有以下例外：我有大约330个列，其中一些列相当大(结构数组等)，DataFrame的总容量约为200 in。我使用的是EMR (5.30，Spark2.4.5)集群，由9xc5.

浏览 10提问于2020-07-08得票数 1

1回答

我有一个pyspark dataframe，其中我必须连接两列，按升序排序，并只从中取最高值。

、

‘代表EG： A B | B | c | |--------| | G | | None | 如何将两者作为一个数组进行排序

浏览 0提问于2020-06-05得票数 1

1回答

对SparkSQL中数组列的每个元素执行UDF (需要另一个火花作业)吗？

、、、、

单元表(tbl_a)的结构如下：A | [1,7,13,25168,992]C | nullid | new_id2 | 'ficnw' ...我打算创建一个新的hive表，使其具有与tbl_a相同的结构</e

浏览 4提问于2017-06-01得票数 1

回答已采纳

1回答

使用嵌套的Python字典和Numpy数组从Pandas Dataframe创建Spark Dataframe

、、、、

我有一个包含numpy数组和字典的pandas数据帧： results_df.head(1) best_params cv_results: 3, 'min_impurity_decrease': 0.2} {'mean_fit_time': [0.6320801575978597, 1.08473]} 我希望能够创建一个包含类似嵌套结构的Spark Dataframe (如

浏览 61提问于2020-08-16得票数 0

1回答

Spark Dataframe中的聚合数组类型

我有一个DataFrame订单：| Id| Order |我正在使用org.apache.spark.sql.functions包，代码如下所示：

浏览 0提问于2016-06-30得票数 3

回答已采纳

2回答

Spark Dataframe/RDD无法通过计算另一列的内容来创建新列

、、

我有一个Spark RDD (或Dataframe -转换成两者都不是问题)，它有以下列(每个结构的示例)：org.apache.spark.sql.DataFrame = [id: string, list: array<string&g

浏览 27提问于2017-07-07得票数 0

回答已采纳

1回答

为什么写入的数据帧在读取后没有保持顺序？

、

我按照前两列的顺序将数据帧写入HDFS： final = <dataframe>.select('Pais','Anho','NumPatentes','TotalCitas','MediaCitas") final.write.format("csv").save("<path>", header = 'true') 然后，我使用以下命令从HDFS

浏览 11提问于2019-12-03得票数 2

回答已采纳

2回答

当NullType位于StructType内时，将空值写入Spark中的拼图

、、、

我正在将一个集合从MongodB导入到Spark。所有文档都有字段'data‘，该字段又是一个结构，并具有字段'configurationName’(始终为空)。("collection", collectionName).load() 对于结果DataFrame中的data列，我得到以下类型： StructType(StructField(configurationName： AnalysisException: Parquet数据源不支持struct 看起来问题

浏览 24提问于2021-08-11得票数 1

2回答

我们是否应该像在训练之前并行化Seq一样来并行化DataFrame

、、、、

考虑这里给出的代码， val training = sparkContext.parallelize我们是否应该继续这样做或者，当传递dataFrame时，fit函数将自动处理计算/数据的并行化致以敬

浏览 0提问于2016-06-01得票数 14

回答已采纳

1回答

如何使用spark将数组转换为Dataframe？

、

由pandas构建的第一个数组： lst = np.array([[1,2,3],[1,2,3],[1,2,3]]) 我想将lst转换为spark Dataframe，结构如下： 01 [1, 2, 3] 2 [1, 2, 3] 我做到了： x_train = spark.createDataFrame(lst) 错误： TypeError: Can not

浏览 75提问于2019-08-31得票数 0

1回答

将csv.writer(csv.writer())- Python更改为PySpark

、、、

我正在尝试应用一个用Python语言编写的函数，以便在PySpark上可读。 open()函数在PySpark中不可读。在这种情况下如何更换？我有一个需要排序的非结构化列表： import csvmy_list = [ ] # Sorting this list

浏览 29提问于2021-10-15得票数 0

2回答

如何使用扁平嵌套Json结构

、、、、

试图使用dataframe来平平嵌套的json响应。我成功地平平了“调查”结构，但当我尝试使用相同的“问题”代码时，会出现错误。附加的是我正在使用的json响应和databricks代码。file_exists(ta_team_customer_experience_survey_raw_path): ta_team_customer_experience_survey_raw = spark.read

浏览 13提问于2022-04-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在不使用Spark的情况下对Spark中的数据进行排序？

如何将数据架构的字符串拆分为每个结构

在Spark-Scala中，如何将数组列表复制到DataFrame中？

如何从火花放电中的字符串中创建相同的结构数组？

如何在Spark* DataFrame中按特定列对结构类型的数组进行排序？*

在Spark中对DataFrame进行排序时，幕后会发生什么？

使用Scala/Java API基于外部数组内容的自定义排序

使用spark对包含多列的大型DataFrame进行排序，原因超过spark.driver.maxResultSize

我有一个pyspark dataframe，其中我必须连接两列，按升序排序，并只从中取最高值。

对SparkSQL中数组列的每个元素执行UDF (需要另一个火花作业)吗？

使用嵌套的Python字典和Numpy数组从Pandas Dataframe创建Spark Dataframe

Spark Dataframe中的聚合数组类型

Spark Dataframe/RDD无法通过计算另一列的内容来创建新列

为什么写入的数据帧在读取后没有保持顺序？

当NullType位于StructType内时，将空值写入Spark中的拼图

我们是否应该像在训练之前并行化Seq一样来并行化DataFrame

如何使用spark将数组转换为Dataframe？

将csv.writer(csv.writer())- Python更改为PySpark

如何使用扁平嵌套Json结构

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐