如何以编程方式为spark中的所有字段生成Struct Type作为StringType？

apache-spark、spark-structured-streaming

我有*n个字段(像200-300)，所有的字段Struct Type我只想要字符串类型。任何简单的方法都有，就像下面提到的 val schema = StructType(schemaString.split(" ").map(fieldName ⇒ StructField(fieldName, StringType, true))) 下面是我尝试过的代码， StructType schema= new Struc

浏览 29提问于2019-10-15得票数 0

1回答

PySpark。在读取拼图时通过强制转换为字符串合并架构？

python、apache-spark、pyspark

我从拼图文件中读取数据，其中有一个Map type字段，如下所示：>>> df.collect()>>> df = spark.read.parquet('path/to/otherParti

浏览 11提问于2019-10-23得票数 1

5回答

在选择“struct_name.*”时，为所有列设置前缀

python、apache-spark、pyspark、struct、apache-spark-sql

下面的dataframe是一个名为'table_name‘的temp_table。spark.conf.set("spark.sql.execution.arrow.enabled", "true

浏览 2提问于2020-01-29得票数 4

回答已采纳

0回答

如何在JSON中使用read.schema仅指定特定字段: SPARK Scala

json、scala、apache-spark、rdd

我正在尝试以编程方式在看起来像json的textFile上强制执行模式(Json)。因此，它需要解析所有需要更长时间的数据(4小时，因为我的数据是压缩的，大小为to )。因此，我想尝试将其读取为textFile，并强制执行模式，以便以后在结果数据框上查询时只获取感兴趣的字段。输入：records: org.apache.spark.sql.Da

浏览 0提问于2016-07-09得票数 3

回答已采纳

1回答

select和with列都不能使用折叠。

scala、dataframe、apache-spark、foldleft

试图从嵌套模式中爆炸给定的列。我正试图实现这一点与折叠左在数据。这里我只处理了两种情况如果列类型是数组，那么我尝试使用withColumn来爆炸数据，然后选择子句import org.apache.spark.sqlStringType,true), |-

浏览 1提问于2020-09-07得票数 0

回答已采纳

2回答

使用定义的StructType转换Spark数据帧的值

scala、apache-spark、dataframe、apache-spark-sql

有没有一种方法可以使用StructType转换数据帧的所有值？让我用一个例子来解释我的问题： import org.apache.spark.sqlnullable = true) | |-- v: string (null

浏览 7提问于2018-07-28得票数 4

回答已采纳

2回答

pyspark:在创建数据时，模式中指定的数据类型不反映在数据中

csv、apache-spark、pyspark、spark-dataframe、aws-glue

我正在Spark中创建一个dataframe，并且我已经将模式定义如下： StructField('number_of_nulls', LongType()),，并且我正在创建数据文件，具体如下： DF = SPARK<

浏览 0提问于2018-02-05得票数 0

1回答

用Spark的from_json解析任意JSON

apache-spark、pyspark

如您所见，每个JSON blob本身的形式为{A:B}，其中A是一个随机/任意字符串，B是一个格式相对良好的JSON对象。,profession2,sarah,scientist因为我不知道A的可能键，所以很难将JSON blob解析为StructType (我无法枚举所有可能的键stackTrace) pyspark.sql.utils.AnalysisException: u&

浏览 2提问于2018-05-14得票数 4

2回答

火花-将JSON字符串的数组转换为Struct数组、过滤器并与root连接

apache-spark、pyspark

我对Spark完全陌生，我正在编写一条管道，以执行一些转换为审计列表。：如何将“events”项解析

浏览 1提问于2020-02-17得票数 1

回答已采纳

2回答

Spark SQL -隐式创建模式与以编程方式创建模式的确切区别

apache-spark、apache-spark-sql

我正在尝试理解隐式创建模式和以编程方式创建模式之间的确切区别，以及在什么特定场景中可以使用哪种方法。在编程风格中，我们将数据集加载为文本文件(类似于反射)。Creating a SchemaString (String) =“了

浏览 2提问于2016-01-31得票数 2

2回答

使用Scala在Spark* DataFrame中重用JSON中的模式*

json、scala、apache-spark、apache-spark-sql

我找不到‘一对一匹配’的方式(通过println或...)具有可接受语法的模式(类似于上面)。我认为可以使用大小写匹配来完成一些编码，以消除双引号。但是，我仍然不清楚需要什么规则才能从测试夹具中获得确切的模式，以便在我的循环生产(与测试夹具)代码中简单地重用。有没有办法让这个模式完全按照我编写的代码打印出来？注意:这包括双引号和所有适当的StructField/类型，等等，以便与代码兼容。作为</e

浏览 4提问于2016-04-20得票数 7

回答已采纳

1回答

将结构转换为火花放电阵列

json、pyspark、struct

"annotations": ["another sample"]当然，我加载这些数据的第一种方法是将它们作为json结构读取：第一个dataframe应该包含注释(包含列pipeline_name和注释)，另一个dataframe应该包含参数( pipeline_name、有没有人知道一种简单的方法，将结构(

浏览 2提问于2021-10-11得票数 0

回答已采纳

1回答

在中添加复杂列

scala、apache-spark、apache-spark-sql

Caused by: java.lang.RuntimeException: Annotation is not a valid external type for schema of struct<field1编辑:用这种方式修改DF模式的示例，用一个简单的类型而不是一个case类。遗憾的是，我没有从case类直接创建DataFrame的选项，这就是为什么我试图使用ScalaReflection将其映射为结构的原因。在本例<e

浏览 2提问于2018-02-09得票数 1

回答已采纳

2回答

替换PySpark列中的最后两个字符

python、pyspark

在带有包含基于日期的整数的列(如20190200,20180900)的spark dataframe中，我希望将所有以00结尾的数据帧替换为01结尾的那些整数，这样之后我就可以将它们转换为可读的时间戳x: x.replace("00","01"), StringType()) sdf.withColumn('date_k', udf(sf

浏览 14提问于2020-06-27得票数 1

回答已采纳

1回答

将联接表的行设置为主查询的字段名和值？

mysql、sql、database、mariadb

是否可以将联接表的行作为主查询的字段名和值？8, 3, "body", "Lorum ipsum..."这将给出faq类型的所有结构，以及所有相应的字段。' 但是我的行中显然有双行，因为生成行

浏览 0提问于2019-03-01得票数 1

回答已采纳

1回答

如何最好地处理模式冲突，将MongoRDD转换为DataFrame？

mongodb、apache-spark、apache-spark-sql、schema、case-class

我正在尝试从mongo数据库中读取一些文档，并在spark中解析模式。到目前为止，我已经成功地从mongo读取并使用由case类定义的模式将结果mongoRDD转换为DataFrame，但是有一种情况是，mongo集合有一个包含多个数据类型的字段(字符串数组和嵌套对象数组到目前为止，我只是将字段解析为一个字符串，然后使用spark的from_json()来解析新模式中的嵌套对象，但

浏览 6提问于2020-03-04得票数 1

回答已采纳

3回答

PySpark: TypeError: col应该是列

json、dataframe、apache-spark、pyspark、typeerror

我正在尝试从嵌套的JSON结构中创建一个dataframe，但是我遇到了一个我不明白的问题。我已经在JSON中爆炸了一个dicts数组结构，现在我正在尝试访问这些数据集，并创建包含其中的值的列。", dataframe.keywords_exp.name) PySpark: TypeError: col应该是列在dict中的任何其他键都没有这样的问题，即"value“。我试图通过将一个JSON文

浏览 7提问于2022-08-04得票数 1

回答已采纳

1回答

如何基于JSON字符串更改数据格式？

python、json、dataframe、apache-spark、pyspark

").json(path_to_data)df = spark.read.text(path_to_data) schema = StructType([("doc_type", StringType(), True), StructField("lang&qu

浏览 7提问于2022-03-23得票数 1

回答已采纳

1回答

函数不返回pyspark。

python、function、dataframe、pyspark

我定义了一个函数，它返回作为输入的所有数据文件的交集的数据。但是，当我将函数的输出存储在某个变量中时，它将不会存储在变量中。它显示为非类型对象。intersection(list1, intersection_df,i): intersection_df = list1[0] i

浏览 0提问于2019-05-31得票数 1

回答已采纳

1回答

json文件向三角湖的动态模式演化

json、databricks、delta-lake、dbt

问题是，当我将第一个json文件加载到特定的增量-湖泊表时，列中的值为空。然后写到增量湖自动创建此列为字符串。下一个文件在同一列中包含一个嵌套的json数组，结果是我得到了以下错误消息： AnalysisException:未能将字段“payment_info”和“payment”合并。未能合并不兼容的数据类型StringType和StructType(StructField(@type，StringType

浏览 2提问于2022-02-05得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark。在读取拼图时通过强制转换为字符串合并架构？

在选择“struct_name.*”时，为所有列设置前缀

如何在JSON中使用read.schema仅指定特定字段: SPARK Scala

select和with列都不能使用折叠。

使用定义的StructType转换Spark数据帧的值

pyspark:在创建数据时，模式中指定的数据类型不反映在数据中

用Spark的from_json解析任意JSON

火花-将JSON字符串的数组转换为Struct数组、过滤器并与root连接

Spark SQL -隐式创建模式与以编程方式创建模式的确切区别

使用Scala在Spark* DataFrame中重用JSON中的模式*

将结构转换为火花放电阵列

在中添加复杂列

替换PySpark列中的最后两个字符

将联接表的行设置为主查询的字段名和值？

如何最好地处理模式冲突，将MongoRDD转换为DataFrame？

PySpark: TypeError: col应该是列

如何基于JSON字符串更改数据格式？

函数不返回pyspark。

json文件向三角湖的动态模式演化

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐