腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Spark
-
从
列
读取
JSON
数组
java
、
json
、
apache-spark
、
apache-spark-sql
使用
Spark
2.11,我有以下数据集(
从
Cassandra表中
读取
): +------------+------------------------------------------------printSchema(): root |-- attributes: string (nullable = true) The attributes
列
是
JSON
对象的
数组
。: Exception in thread &q
浏览 46
提问于2021-02-25
得票数 0
回答已采纳
2
回答
如何在
spark
数据帧/
spark
sql中
读取
带模式的
json
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
sql/dataframes,请帮我解决这个问题,或者就如何阅读这个
json
提供一些好的建议。
浏览 0
提问于2016-09-07
得票数 9
回答已采纳
1
回答
使用
spark
从
CSV文件导入
JSON
内容
json
、
apache-spark
、
etl
、
databricks
我已经能够
读取
CSV内容(它有大量的JSONS),但我不知道如何解析/插入到Databricks表中。 "updated_at": { },}df =
spark
.read \ .option("header", &qu
浏览 24
提问于2022-03-21
得票数 0
1
回答
如何在数据库中
读取
100 on的嵌套
json
json
、
pyspark
、
databricks
有一个嵌套的
json
,结构非常深。文件的格式为
json
.gz大小3.5GB。一旦这个文件被解压缩,它的大小是100 of。这个
json
文件的格式是Multiline = True (如果这个条件用于通过
spark
.read_
json
读取
文件,那么我们只能看到正确的
json
模式)。此外,该文件只有一条记录,其中有两
列
Struct类型
数组
,带有多级嵌套。 我应该如何
读取
这个文件并提取信息。使用何种集群/技术<e
浏览 8
提问于2022-08-09
得票数 0
1
回答
在使用pyspark和预定义的结构模式
读取
嵌套
JSON
时,如何将缺少的
列
添加为null
python
、
json
、
apache-spark
因为,对于某一天的负载,可能会发生这样的情况:在struct字段的book
数组
中,任何输入数据都没有author
列
。 因此,如果我不使用模式,
spark
将无法推断该
列
,因为任何输入数据都没有该
列
。2> df =
spark
.read.
json
('/input/data/path').select(col("data.*")) df.coalesce(1).write.
json
(
浏览 22
提问于2020-09-13
得票数 2
1
回答
打印卡夫卡主题中的电火花流数据
python
、
apache-spark
、
pyspark
、
apache-kafka
、
spark-structured-streaming
我是新的卡夫卡和电火花,并试图编写简单的程序,所以我有两个卡夫卡主题的
JSon
格式,我正在阅读
从
火花放电流这两个文件。我的制片人代码如下:import
json
import boto3from Consumer_Groupimport *class producer : def
json
_serializer(data)
浏览 3
提问于2021-05-08
得票数 2
1
回答
用Apache
Spark
读取
JSON
数组
json
、
scala
、
apache-spark
我有一个
json
数组
文件,如下所示: ["{\"timestamp\":1616549396892,\"id\":\"1\",\"events\":[{\"event_type\":\"ON\"}]}中
读取
这个文件。val s1 =
spark
.read.
json
("path/to/file/file.
json
"
浏览 34
提问于2021-03-25
得票数 0
3
回答
如何在Apache
Spark
中处理变化的拼图模式
apache-spark
、
apache-spark-sql
、
spark-dataframe
、
emr
、
parquet
我遇到了一个问题,我在S3中将拼图数据作为每日数据块(以s3://bucketName/prefix/YYYY/MM/DD/的形式),但我无法从不同的日期
读取
AWS EMR
Spark
中的数据,因为一些
列
类型不匹配并且我得到了许多异常之一,例如:当某些文件中的
数组
类型具有值
JSON
数据
浏览 0
提问于2016-12-02
得票数 24
回答已采纳
1
回答
将cassandra行RDD转换为元组
数组
apache-spark
、
datastax
、
datastax-enterprise
我尝试
从
cassandra表中
读取
数据并将值存储在
数组
中。我的RDD如下所示如何将这些值存储到没有列名的
数组
中?
浏览 0
提问于2015-11-06
得票数 0
1
回答
针对结构值的
Spark
-Hive集成-空输出
apache-spark
、
struct
、
hive
使用
Spark
2.2 我已经
从
spark
程序中填充了一个拼图结构
列
,也填充了另一个拼图列结构
数组
当它将其作为外部表
从
配置单元
读取
时;结构
数组
已正确填充,但结构(非
数组
类型)字段生成为NULL。注意:在拼图中,同时填充了struct和struct
数组
值。只有在蜂巢里我们才有问题,对此有什么想法吗?
浏览 7
提问于2020-01-18
得票数 0
2
回答
如何在从
json
创建dataframe时不推断架构?
python
、
json
、
apache-spark
、
pyspark
我不希望在从一组jsons创建数据帧时推断出inferSchema = 'false'模式,但我不能像
从
csv中
读取
时那样传递。下面是我
读取
数据的方式: df =
spark
.read.
json
(r's3://mypath/')
浏览 5
提问于2017-12-12
得票数 4
回答已采纳
1
回答
如何
读取
JSON
数组
这样的复杂数据类型并使用Java中的
Spark
加载到Hive表中
apache-spark
、
hive
、
apache-spark-sql
、
apache-spark-dataset
isValid": "N"}]}UUID(String)|PID(String)|DEVID(String)|FIRSTNAME(String)|LINK(String which is a
JSON
)如何
读取
上述数据并转换为数据格式(使用StructType模式)以插入到Hive表中。如何将链接
列
数据加载到Hive表中,它在表中的数据类型是什么。。
浏览 1
提问于2019-10-30
得票数 0
1
回答
在df.toPandas().to_csv('mycsv.csv')之后,数据在重新
读取
时会被混淆
python
、
pyspark
、
apache-spark-sql
result_25.toPandas().to_csv('mycsv.csv')rr =
spark
.read.csv('mycsv.csv',
浏览 3
提问于2018-10-01
得票数 2
回答已采纳
1
回答
通过另一
列
的值初始化列表
cassandra
我在Cassandra DB中有一个表,其中有一些
列
,例如: id (text), ..., data (text).出于迁移的目的,我需要将“数据”的值复制到一个新
列
:data_list (list<text>)。如何通过data_list
列
中的值初始化data
列
?
浏览 2
提问于2021-06-13
得票数 1
回答已采纳
2
回答
使用架构
读取
JSON
数组
字符串返回null
spark
2.2.0
apache-spark
、
apache-spark-sql
当我尝试将包含
JSON
字符串的
spark
dataframe
列
读取
为
数组
时,使用定义的模式,它返回null。我为模式尝试了Array、Seq和List,但都返回null。我的
spark
版本是2.2.0 val dfdata=
spark
.sql("""select "\[{ \"id\":\"93993\", \"name\":\"Phil\" },
浏览 25
提问于2019-03-22
得票数 2
回答已采纳
1
回答
尝试使用
Spark
1.6 (WrappedArray)
从
嵌套
JSON
中收集A值
java
、
json
、
apache-spark
、
bigdata
我试图在Dataframe中转换
json
文件,但我被困在基于
数组
的字段中。我使用的是
Spark
1.6和Java。当我
读取
嵌套的
Json
并转换为Dataframe时,我可以
读取
一些字段,但当我尝试输入特定路径时,会显示错误。DataFrame df =
spark
.read().
json
(sc.wholeTextFiles("PATH").values()); 我正在
读取
一个
json
文件。返回的<
浏览 29
提问于2019-09-11
得票数 0
2
回答
使用分区
JSON
的
Spark
分区投影/下推和模式推理
json
、
apache-spark
、
pyspark
、
apache-spark-sql
我想以
JSON
格式
读取
分区数据的子集,使用
spark
(3.0.1)
从
JSON
推断模式。x && $"dt" >= y && $"dt" <= z)
读取
时,
spark
尝试
读取
整个数据集以推断模式。(请注意,在这种情况下,除非我指定basePath,否则
spark
也会丢失type和dt
列
,但这没问题,我可以接受。)我想,我正在寻找的是一
浏览 20
提问于2021-01-27
得票数 4
1
回答
如何将输入文件中的每个
Json
对象
读取
到
spark
DataFrame中的一行
scala
、
apache-spark
、
apache-spark-sql
我是
spark
和Scala的新手,我正在尝试为我的一个学习项目学习
spark
。我有一个
JSON
文件,如下所示: {"month": 8,},"year": 2012,")它
读取
JSON
,但将数据转换为
sp
浏览 1
提问于2018-12-28
得票数 0
1
回答
在
读取
spark
文件后未保留
列
顺序
python
、
json
、
scala
、
apache-spark
、
pyspark
我正在尝试使用
spark
.read.
json
("<path>")
读取
一个
json
文件,但是默认情况下,
列
顺序是按sorted排序的。 有很多嵌套
列
/新
列
经常被添加到模式中,我无法为所有
列
定义模式。在不手动定义模式的情况下,我们可以在
读取
preserve column order时使用
spark
.read.
json
吗?":"123"
浏览 6
提问于2021-04-28
得票数 0
1
回答
为scala星星之火中的两种不同数据格式创建视图
scala
、
apache-spark
我有一个代码片段,它将
读取
文件路径的
Json
数组
,然后合并输出,并给出两个不同的表。因此,我想为这两个表创建两个不同的createOrReplaceview(名称),名称将在
json
数组
中可用,如下所示: "source": [
数组
,我的代码遍历每个
数组
,
读取
数据部分并
读取
数据。例如,我想按照
Json
数组
中的情况创建.createOrReplace
浏览 6
提问于2020-09-03
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming+Kafka+Hbase项目实战
Apache Spark 2.4 内置的 Avro 数据源实战
遇见YI算法之初识Pyspark(二)
Spark之SparkSQL
灵活强大:iObjects Java for Spark模块扩展开发
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券