Spark -从列读取JSON数组_用Apache Spark读取JSON数组_Spark JSON数组 - 腾讯云开发者社区

java、json、apache-spark、apache-spark-sql

使用Spark 2.11，我有以下数据集(从Cassandra表中读取)： +------------+------------------------------------------------printSchema()： root |-- attributes: string (nullable = true) The attributes列是JSON对象的数组。： Exception in thread &q

浏览 46提问于2021-02-25得票数 0

回答已采纳

2回答

如何在spark数据帧/spark sql中读取带模式的json

scala、apache-spark、dataframe、apache-spark-sql

sql/dataframes，请帮我解决这个问题，或者就如何阅读这个json提供一些好的建议。

浏览 0提问于2016-09-07得票数 9

回答已采纳

1回答

使用spark从CSV文件导入JSON内容

json、apache-spark、etl、databricks

我已经能够读取CSV内容(它有大量的JSONS)，但我不知道如何解析/插入到Databricks表中。 "updated_at": { },}df = spark.read \ .option("header", &qu

浏览 24提问于2022-03-21得票数 0

1回答

如何在数据库中读取100 on的嵌套json

json、pyspark、databricks

有一个嵌套的json，结构非常深。文件的格式为json.gz大小3.5GB。一旦这个文件被解压缩，它的大小是100 of。这个json文件的格式是Multiline = True (如果这个条件用于通过spark.read_json读取文件，那么我们只能看到正确的json模式)。此外，该文件只有一条记录，其中有两列Struct类型数组，带有多级嵌套。我应该如何读取这个文件并提取信息。使用何种集群/技术<e

浏览 8提问于2022-08-09得票数 0

1回答

在使用pyspark和预定义的结构模式读取嵌套JSON时，如何将缺少的列添加为null

python、json、apache-spark

因为，对于某一天的负载，可能会发生这样的情况:在struct字段的book数组中，任何输入数据都没有author列。因此，如果我不使用模式，spark将无法推断该列，因为任何输入数据都没有该列。2> df = spark.read.json('/input/data/path').select(col("data.*")) df.coalesce(1).write.json(

浏览 22提问于2020-09-13得票数 2

1回答

打印卡夫卡主题中的电火花流数据

python、apache-spark、pyspark、apache-kafka、spark-structured-streaming

我是新的卡夫卡和电火花，并试图编写简单的程序，所以我有两个卡夫卡主题的JSon格式，我正在阅读从火花放电流这两个文件。我的制片人代码如下：import jsonimport boto3from Consumer_Groupimport *class producer : def json_serializer(data)

浏览 3提问于2021-05-08得票数 2

1回答

用Apache Spark读取JSON数组

json、scala、apache-spark

我有一个json数组文件，如下所示： ["{\"timestamp\":1616549396892,\"id\":\"1\",\"events\":[{\"event_type\":\"ON\"}]}中读取这个文件。val s1 = spark.read.json("path/to/file/file.json"

浏览 34提问于2021-03-25得票数 0

3回答

如何在Apache Spark中处理变化的拼图模式

apache-spark、apache-spark-sql、spark-dataframe、emr、parquet

我遇到了一个问题，我在S3中将拼图数据作为每日数据块(以s3://bucketName/prefix/YYYY/MM/DD/的形式)，但我无法从不同的日期读取AWS EMR Spark中的数据，因为一些列类型不匹配并且我得到了许多异常之一，例如：当某些文件中的数组类型具有值JSON数据

浏览 0提问于2016-12-02得票数 24

回答已采纳

1回答

将cassandra行RDD转换为元组数组

apache-spark、datastax、datastax-enterprise

我尝试从cassandra表中读取数据并将值存储在数组中。我的RDD如下所示如何将这些值存储到没有列名的数组中？

浏览 0提问于2015-11-06得票数 0

1回答

针对结构值的Spark -Hive集成-空输出

apache-spark、struct、hive

使用Spark 2.2 我已经从spark程序中填充了一个拼图结构列，也填充了另一个拼图列结构数组当它将其作为外部表从配置单元读取时；结构数组已正确填充，但结构(非数组类型)字段生成为NULL。注意:在拼图中，同时填充了struct和struct数组值。只有在蜂巢里我们才有问题，对此有什么想法吗？

浏览 7提问于2020-01-18得票数 0

2回答

如何在从json创建dataframe时不推断架构？

python、json、apache-spark、pyspark

我不希望在从一组jsons创建数据帧时推断出inferSchema = 'false'模式，但我不能像从csv中读取时那样传递。下面是我读取数据的方式： df = spark.read.json(r's3://mypath/')

浏览 5提问于2017-12-12得票数 4

回答已采纳

1回答

如何读取JSON数组这样的复杂数据类型并使用Java中的Spark加载到Hive表中

apache-spark、hive、apache-spark-sql、apache-spark-dataset

isValid": "N"}]}UUID(String)|PID(String)|DEVID(String)|FIRSTNAME(String)|LINK(String which is a JSON)如何读取上述数据并转换为数据格式(使用StructType模式)以插入到Hive表中。如何将链接列数据加载到Hive表中，它在表中的数据类型是什么。。

浏览 1提问于2019-10-30得票数 0

1回答

在df.toPandas().to_csv('mycsv.csv')之后，数据在重新读取时会被混淆

python、pyspark、apache-spark-sql

result_25.toPandas().to_csv('mycsv.csv')rr = spark.read.csv('mycsv.csv',

浏览 3提问于2018-10-01得票数 2

回答已采纳

1回答

通过另一列的值初始化列表

cassandra

我在Cassandra DB中有一个表，其中有一些列，例如： id (text), ..., data (text).出于迁移的目的，我需要将“数据”的值复制到一个新列：data_list (list<text>)。如何通过data_list列中的值初始化data列？

浏览 2提问于2021-06-13得票数 1

回答已采纳

2回答

使用架构读取JSON数组字符串返回null spark 2.2.0

apache-spark、apache-spark-sql

当我尝试将包含JSON字符串的spark dataframe列读取为数组时，使用定义的模式，它返回null。我为模式尝试了Array、Seq和List，但都返回null。我的spark版本是2.2.0 val dfdata= spark.sql("""select "\[{ \"id\":\"93993\", \"name\":\"Phil\" },

浏览 25提问于2019-03-22得票数 2

回答已采纳

1回答

尝试使用Spark1.6 (WrappedArray)从嵌套JSON中收集A值

java、json、apache-spark、bigdata

我试图在Dataframe中转换json文件，但我被困在基于数组的字段中。我使用的是Spark 1.6和Java。当我读取嵌套的Json并转换为Dataframe时，我可以读取一些字段，但当我尝试输入特定路径时，会显示错误。DataFrame df = spark.read().json(sc.wholeTextFiles("PATH").values()); 我正在读取一个json文件。返回的<

浏览 29提问于2019-09-11得票数 0

2回答

使用分区JSON的Spark分区投影/下推和模式推理

json、apache-spark、pyspark、apache-spark-sql

我想以JSON格式读取分区数据的子集，使用spark (3.0.1)从JSON推断模式。x && $"dt" >= y && $"dt" <= z)读取时，spark尝试读取整个数据集以推断模式。(请注意，在这种情况下，除非我指定basePath，否则spark也会丢失type和dt列，但这没问题，我可以接受。)我想，我正在寻找的是一

浏览 20提问于2021-01-27得票数 4

1回答

如何将输入文件中的每个Json对象读取到spark DataFrame中的一行

scala、apache-spark、apache-spark-sql

我是spark和Scala的新手，我正在尝试为我的一个学习项目学习spark。我有一个JSON文件，如下所示： {"month": 8,},"year": 2012,")它读取JSON，但将数据转换为sp

浏览 1提问于2018-12-28得票数 0

1回答

在读取spark文件后未保留列顺序

python、json、scala、apache-spark、pyspark

我正在尝试使用spark.read.json("<path>")读取一个json文件，但是默认情况下，列顺序是按sorted排序的。有很多嵌套列/新列经常被添加到模式中，我无法为所有列定义模式。在不手动定义模式的情况下，我们可以在读取preserve column order时使用spark.read.json吗？":"123"

浏览 6提问于2021-04-28得票数 0

1回答

为scala星星之火中的两种不同数据格式创建视图

scala、apache-spark

我有一个代码片段，它将读取文件路径的Json数组，然后合并输出，并给出两个不同的表。因此，我想为这两个表创建两个不同的createOrReplaceview(名称)，名称将在json数组中可用，如下所示： "source": [数组，我的代码遍历每个数组，读取数据部分并读取数据。例如，我想按照Json数组中的情况创建.createOrReplace

浏览 6提问于2020-09-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云