Spark SQL如何查询Array[Struct]中结构字段的子集？_当struct类型的struct字段与spark scala中的特定值匹配时，从结构数组中检索struct_如何从子查询的Google BigQuery中访问ARRAY>STRUCT类型的值 - 腾讯云开发者社区

apache-spark、hive、apache-spark-sql

浏览 32提问于2019-09-28得票数 0

3回答

如何正确地将结构函数转换为named_struct表达式？

apache-spark、pyspark、apache-spark-sql

}, "a": "3", }} 我需要使用spark-sql API将array0中的结构的每个字段名都更改为这样的("json").option("multiLine", "true&quo

浏览 55提问于2020-06-30得票数 1

1回答

在pyspark中高效选择键值拼图列

apache-spark、pyspark、apache-spark-sql、parquet

我正在使用一个相当大的镶嵌板桌子，99.9%的数据包含在单个key:value列中。| | |-- complex_field_n: struct 有问题的列是details，可能的键是key_1、key_2、both或none。我的问题是如何有效地只选择属于key_1的子字段(例如select details['key_1'].complex_struct_1.co

浏览 6提问于2021-01-05得票数 0

回答已采纳

2回答

Spark -从数组对象中选择多列

scala、apache-spark

浏览 0提问于2020-06-09得票数 1

1回答

火花放电数据帧中数组的访问字段

pyspark、pyspark-sql、orc

我正在开发基于一组ORC文件的spark数据访问sql查询。这个程序是这样的：spark_session = SparkSession.builder.appName("test").getOrCreate如果我做这样的事： spark_session.sql("select count(*) from test

浏览 0提问于2018-02-16得票数 5

回答已采纳

1回答

删除pyspark中的嵌套列

python、apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我有一个包含一列结果的pyspark数据帧。在结果列中，我想删除列"Attributes“。dataframe的模式是：(在结果中有更多的列，但为了方便起见，我没有显示它们，因为模式很大) |-- results: struct (nullable = true) | | |-- element: struct (containsNull = true) | |

浏览 20提问于2020-06-15得票数 0

回答已采纳

1回答

在R中使用SparklyR更改嵌套列名

r、apache-spark、sparklyr

我提到了这里提到的所有链接：下面的R代码是使用Sparklyr包编写的。它读取巨大的JSON文件并创建数据库模式。sc <- spark_connect(master = "local", config = conf, version = '2.2.0') # Connection它显示错误： Er

浏览 0提问于2018-09-10得票数 0

1回答

AnalysisException:需要结构类型但有字符串

apache-spark、pyspark、struct、databricks、apache-sedona

我在Databricks中创建了一个表utils.executequery(""" optimize TabA """) col1#22613:需要结构类型但有字符串

浏览 6提问于2022-10-17得票数 1

回答已采纳

1回答

如何在不指定架构的情况下使用PySpark中的struct列创建数据格式？

apache-spark、pyspark、struct、apache-spark-sql、pyspark-schema

我正在学习PySpark，它可以方便地快速创建示例数据文件来尝试PySpark API的功能。以下代码(其中spark是火花会话)：df = [{'id': 1, 'data': {'x': 'mplah', 'y': [10,20,30如果我给出一个模式，我可以强制一个结构：df =

浏览 2提问于2022-05-01得票数 3

回答已采纳

1回答

星火中结构到柱的爆炸阵列

scala、apache-spark、dataframe

我想将一个结构数组分解为列(由struct字段定义)。例如。root | |-- element: struct (containsNull = true)我可以用 .select(explode($"arr").as("tmp")) .select($"tmp.*&q

浏览 0提问于2017-11-29得票数 4

1回答

spark和dataframes中的字段空控制

apache-spark、dataframe、apache-spark-sql

基本思想是，用户通过命名字段并将其与简单的sql片段(可以出现在select子句中的片段)映射来配置字段，组件将添加此列并将其分组到struct字段中(使用 )。稍后的处理将这些struct字段中的一些字段分组到一个数组中，此时我遇到了一个问题，即其中一个字段在一个元组中是可空的</e

浏览 3提问于2016-04-20得票数 2

1回答

在架构rdd中爆炸json数组

json、scala、apache-spark-sql

":"Michael", "address":[{"city":null, "state":"California"},{"city":null, "state":"California"}]}[Yin , [(Columbus , Ohio) , (Colum

浏览 5提问于2015-04-27得票数 4

1回答

使用java读取spark* sql中的复杂json*

java、spark-streaming

我的json文件类似于下面的代码，我正在尝试使用以下代码读取majorsector_percent下的所有名称。.registerTempTable("logs"); List s = sQLContext.sqllang=en" }java.lang.ClassCastExcep

浏览 0提问于2016-04-06得票数 1

1回答

如何向dataframe中添加大型struct列

scala、apache-spark、apache-spark-sql、case-class

我想将struct列添加到dataframe中，但该结构的字段超过100字段。我了解到case类可以更改为struct列，但是case类的限制是不超过22个字段(online spark为1.6.3，scala为2.10.4)。普通类能做到这一点吗？还有一个"org.apache.spark.sql.functions.struct"，，但是

浏览 4提问于2017-08-17得票数 0

回答已采纳

1回答

如何使用相当复杂的架构映射数据集？

apache-spark、dataframe、apache-spark-sql

： dataframe的每一行都有两个或更多的元素，它们具有我在问题中发布的结构。首先，我希望将行列表中的每一行元素分开，因为我需要对它们进行比较。其中一个是我想应用另一个映射的DataFrame[ListRow]，因此我可以合并每个列表的元素(为此，我编写了一个递归函数，检查列表中的顺序，并用旧元素的值填充新元素的空字段)。由于模式相当复杂(至少我不知道<em

浏览 2提问于2017-09-26得票数 1

回答已采纳

1回答

尝试使用Spark1.6 (WrappedArray)从嵌套JSON中收集A值

java、json、apache-spark、bigdata

我试图在Dataframe中转换json文件，但我被困在基于数组的字段中。我使用的是Spark 1.6和Java。当我读取嵌套的Json并转换为Dataframe时，我可以读取一些字段，但当我尝试输入特定路径时，会显示错误。element: array (containsNull = true) | || |-- c

浏览 29提问于2019-09-11得票数 0

1回答

在列表中创建带有结构的选择

sql、apache-spark、pyspark、apache-spark-sql

我有下面的Dataframe视图df_view| b | c || 1 | 3 |我需要选择这个数据来形成一个包含结构列表的键{ { "c": 3 ]对于下面的select，它只创建一个结构，而不创建列表。df = spark.sql( '''

浏览 1提问于2021-06-01得票数 0

回答已采纳

2回答

在PySpark SQL中爆炸JSON

json、apache-spark、pyspark、apache-spark-sql

在模式中不存在名称结构/array的情况下，如何爆炸嵌套的JSON数据？例如： |-- items: array (nullable = true) | |(使用多行)，然后使用temp表并尝试查询。spark.sql("select explode(items)

浏览 4提问于2020-12-23得票数 1

回答已采纳

1回答

星火支持列是否扫描结构数组的剪枝？

apache-spark、apache-spark-sql

在以下模式中，我有一个名为“住户”的数据框架： |-- country_code: string (nullable = true) |-- individuals: array (nullable = true) || |-- individual_id: string (nullable = true) | |

浏览 20提问于2020-07-20得票数 3

2回答

触发数据帧groupBy并将结果排序到列表中

apache-spark、dataframe、apache-spark-sql

我有一个Spark Dataframe，我想按键对元素进行分组，并将结果作为排序列表df.groupBy("columnA").agg(collect_list("columnB")) 如何使列表中的项目按升序排列？

浏览 5提问于2016-08-01得票数 18

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云