在数组spark数据帧2.4的嵌套结构中提取多个元素_如何在Spark RDD中处理具有数组元素的嵌套结构_在Spark Scala中迭代数组的数据帧列数组 - 腾讯云开发者社区

dataframe、apache-spark、apache-spark-sql、parquet、aws-glue

我正在读取拼图文件，并试图提取Struct of Array中的元素。但是，当我使用getItem()时，null值返回为空。这种模式在Spark 1.6中有效，但现在在aws glue中使用Spark 2.4，它似乎忽略了空值，只拉空。输入是parquet，但我是用JSON格式编写的： { "activity":{

浏览 13提问于2021-08-01得票数 0

2回答

从pyspark中的dataframe ArrayType列中获取前N个元素

apache-spark、pyspark、apache-spark-sql

我有一个spark数据帧，行是这样的-2 | [d, e, f]现在我只想保留数组列中的前两个元素。注意-请记住，我在这里提取的不是单个数组元素，而是可能包含多个元素的数组的一部分。

浏览 1提问于2018-10-25得票数 12

回答已采纳

1回答

有一个星火内置的扁平嵌套数组吗？

scala、apache-spark、apache-spark-sql、user-defined-functions

我有一个DataFrame字段，它是一个Seq[Seq[String]]，我构建了一个UDF来将所述列转换为SeqString列；基本上，是用于Scala中的flatten函数的UDF。seqOfSeq.flatten df: DataFrame => df.withColumn(outCol, udf(flatfunc _).apply(col(inCol)))我的用例是字符串，但显然，这可能是通用的。您可以在DataFrame转换链中使用此函数，如下所

浏览 0提问于2019-01-19得票数 1

回答已采纳

2回答

Scala/Spark -如何获取所有子数组的第一个元素

scala、apache-spark、apache-spark-sql

我在Spark中有以下DataFrame (我正在使用Scala)：我想要获得一个只包含每个子阵列的第一个Int的Dataframe，类似于： [1003014, 15, 754, 1029530, 3066, 1066

浏览 1提问于2019-12-09得票数 1

回答已采纳

1回答

嵌套的XML数据AWS胶水

amazon-web-services、aws-glue

我们有一些这种格式的数据： <event timestamp="20200529032100"> <row attr="gfds" id="6">data</row> <row attr="sadf" id="8"&

浏览 1提问于2020-05-29得票数 0

2回答

星星之火-更新嵌套列为字符串

scala、apache-spark、pyspark、apache-spark-sql

浏览 6提问于2022-04-28得票数 2

回答已采纳

1回答

在火花中处理JSON --不同文件中的不同模式

json、apache-spark、schema

我从第三方获得了大量的JSON文件。它们都有相同的模式，除非嵌套元素为空，否则它被表示为空数组。{ }因此，这是一个有效的JSON，"survey_data“元素是一个struct_type，但是具有非常复杂的嵌套结构(子元素比这个简化的示例中要多) 但是，当survey_data没有<e

浏览 0提问于2018-10-31得票数 3

1回答

使用嵌套的Python字典和Numpy数组从Pandas Dataframe创建Spark Dataframe

python、dataframe、apache-spark、pyspark、apache-spark-sql

我有一个包含numpy数组和字典的pandas数据帧： results_df.head(1) best_params cv_resultsmax_depth': 3, 'min_impurity_decrease': 0.2} {'mean_fit_time': [0.6320801575978597, 1.08473]} 我希望能够创建一个包含类似嵌套结构

浏览 61提问于2020-08-16得票数 0

2回答

嵌套json扁平化spark数据帧

dataframe、apache-spark、apache-spark-sql

我正在尝试从一个嵌套的jsonString创建一个数据帧，并拆分成多个数据帧，即外部元素数据将转到一个数据帧，嵌套子数据将转到另一个dataframe.There，也可以是多个嵌套元素。我看了看其他的帖子，他们都没有为下面的scenario.Below提供一个工作样本，其中状态的</e

浏览 0提问于2020-10-07得票数 1

2回答

如何在Spark中动态切片数组列？

python、apache-spark、pyspark、apache-spark-sql

Spark 2.4引入了新的SQL函数slice，该函数可用于从数组列中提取特定范围的元素。我希望根据Integer列动态定义每行的范围，该列具有我想要从该列中选取的元素的数量。有没有一种不用编写UDF就能做到这一点的方法呢？通过一个例子来可视化这个问题:我有一个数据帧，它有一个数组列arr，在每一行中都有一

浏览 43提问于2019-09-02得票数 4

回答已采纳

1回答

Sparklyr如何查看变量

r、sparklyr

嗨，我有一个嵌套很深的json文件。我使用sparklyr读取这个json文件，并将其命名为"data“对象。首先，我将展示数据结构：data -b : stringdata %>% sdf_select(a) # Database: <

浏览 9提问于2018-02-19得票数 1

2回答

在Parquet中使用嵌套数据类型有什么好处？

apache-spark、nested、parquet、data-files

在Parquet文件格式中使用嵌套数据类型会带来任何性能上的好处吗？AFAIK Parquet文件通常是专门为查询服务(如Athena )创建的，因此创建这些文件的过程可以简单地平缓值--从而允许更容易地查询、简化模式，并保留每列的列统计信息。使用嵌套数据类型(如struct )有什么好处？

浏览 0提问于2018-03-25得票数 3

回答已采纳

1回答

用Spark高效读取PDF/text/word文件

java、apache-spark、hdfs、file-format

我正在对我的数据进行NLP (自然语言处理)处理。数据的格式可以是PDF/Text/Word/HTML类型的文件。这些文件存储在本地磁盘上的嵌套目录结构中。我的独立的基于Java的NLP解析器可以读取输入文件，从中提取文本，并对提取的文本进行NLP处理。我正在转换我的</

浏览 1提问于2017-05-20得票数 1

1回答

PySpark -保存配置单元表- org.apache.spark.SparkException:无法识别配置单元类型字符串

pyspark、databricks、apache-spark-2.0

我正在将spark数据帧保存到hive表中。spark dataframe是一个嵌套的json数据结构。我可以将数据帧另存为文件，但它在上面创建了一个配置单元表时失败了，上面写着org.apache.spark.SparkException: Cannot recognize hive type string我不能先创建一个hive表模式，然后再将其插入其中，因为数据</e

浏览 1提问于2018-08-11得票数 2

2回答

中的结构解析数组

scala、apache-spark、apache-spark-sql

未定义Data列中的元素数，因此可以更改元素数。我需要解析这些数据并去掉嵌套结构。(在这种情况下，数组Explode将无法工作，因为一行中的数据属于一个元素)。真正的模式要大得多，并且有多个数组字段，比如'Data‘，所以我的目标是创建一个通用解决方案，应用于类似的结构数组<

浏览 0提问于2020-08-04得票数 0

回答已采纳

1回答

如何将输入数据流保存到Spark中sql查询的执行数据结构中？

dataframe、apache-spark、apache-spark-sql、bigdata、spark-streaming

我是大人物的新词。我的目标是在某种数据结构中维护输入数据流，以便对它们执行查询和聚合操作。以连续数据流为输入，通过spark的结构化流，我将其存储在DataFrame中。我的问题是：是一种易失性的数据结构吗?在程序崩溃的情况下，是维护的吗

浏览 1提问于2020-04-23得票数 0

1回答

你能在pyspark中有一列数据帧吗？

nested、pyspark、spark-dataframe、pyspark-sql

我对pyspark/bigdata有点陌生，所以这可能不是一个好主意，但我有大约一百万个单独的CSV文件，每个文件都与一些元数据相关联。我想要一个pyspark dataframe所有元数据字段的列，但也有一个列，其条目是(整个) CSV文件与每组元数据相关联。 StructField("A", IntegerType(), True), StructField("B

浏览 2提问于2016-11-17得票数 0

1回答

将嵌套的json加载为字符串

apache-spark、pyspark

我有非常复杂和高度嵌套的json结构，作为字符串存储在Hive表中。{"entry": [{..}, {...}]我不想为整个事件声明模式，而是只为根<e

浏览 1提问于2018-04-10得票数 0

回答已采纳

1回答

如何将spark数据帧的列移动到同一数据帧中的嵌套列？

scala、dataframe、apache-spark、apache-spark-sql、apache-spark-dataset

我将spark数据帧的列移动到同一数据帧中的嵌套列的方法如下所示： .appName("SparkByExamples.com") .getOrCreate() val data = Seq(("Adam&qu

浏览 19提问于2021-02-05得票数 0

回答已采纳

2回答

apache spark数据帧中的分解数组

scala、apache-spark、explode、spark-dataframe

我正在尝试使用嵌套字段来扁平化现有数据帧的模式。我的数据帧的结构是这样的：|-- Id: long (nullable = true) |-- Uri: stringtrue) | |-- element: string (contains

浏览 7提问于2016-09-11得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云