腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Pyspark
:从
JSON
文件
创建模式
、
、
我正在处理来自非常长
的
嵌套
JSON
文件
的
数据。问题是,这些
文件
的
结构并不总是与其他
文件
的
列
相同。我希望从包含所有
列
的
空
JSON
文件
中
创建一个自定义模式。如果我稍后将
JSON
文件
读入这个预定义
的
模式
中
,则不存在
的
列
将被空<e
浏览 7
提问于2021-10-26
得票数 3
回答已采纳
2
回答
读取
structType
列
的
值
为
pyspark
中
的
字符串
的
嵌套
JSON
文件
{ "traffic_fource":"{'name':'intgreints','medium':‘(无)’,'source':‘(直接)’}“} 这是一个拼图
文件
,它有
json
格式
的
数据,但是
值
部分在双引号
中
,这使得它是一个
字符串
而不是
StructType
,我想解套它,在像traffic_fource_name和value这样
的
列<
浏览 52
提问于2021-08-13
得票数 0
1
回答
将
字符串
列转换为
pyspark
dataframe
中
的
字典
、
、
、
我必须使用一种
文件
格式,其中每一行都是一个
json
对象。
文件
格式,因为它没有包含在数组
中
。而且,实际
的
结构要大得多,
嵌套
也要多。这些
文件
是在s3
中
分发
的
。我以前只使用过地板或csv,所以我不知道如何
读取
这些
文件
。我目前正在编写一个进程来将该数据与其他几个表连接起来,而且由于数据很大,并且位于s3
中
,所以我在emr集群中使用
pyspark
.sql进行操作。我可以使用
浏览 3
提问于2020-03-02
得票数 1
回答已采纳
1
回答
从
Pyspark
Dataframe解析
JSON
字符串
、
、
、
、
我有一个
嵌套
的
JSON
字典,我需要将其转换为spark dataframe。此
JSON
字典显示在数据框
列
中
。我一直在尝试使用"from_
json
“和"get_
json
_object”来解析dataframe
列
中
存在
的
字典,但一直无法
读取
数据。以下是我一直在尝试
读取
的
源数据
的
最小片段: {"value
浏览 36
提问于2021-04-01
得票数 1
回答已采纳
3
回答
将模式数据类型
JSON
混合到
PySpark
DataFrame
、
、
我需要将
JSON
的
列表转换为
pySpark
DataFrames。
JSON
都有相同
的
架构。问题是
JSON
中
dicts
的
值
条目有不同
的
数据类型。例如:字段complex是一个Dicts数组,Dict有四个键,但类型不同(整数、
字符串
、浮点数和
嵌套
Dict)。参见下面的示例
JSON
。
PySpark
决定complex-field
的
架构
浏览 23
提问于2022-03-28
得票数 0
回答已采纳
1
回答
使用
Pyspark
从数组
中
读取
JSON
项?
、
、
、
我在从databricks
中
的
Cosmos DB
读取
项目时遇到了一些问题,它似乎将
JSON
读取
为
字符串
值
,并将数据从
JSON
中
读取
到
列
中
。我有一个名为ProductRanges
的
列
,其中一行包含以下
值
: [ {
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
2
回答
从
JSON
文件
中
获取
Pyspark
模式
、
、
、
我试图从
JSON
文件
中
获取
Pyspark
模式,但是当我使用Python代码
中
的
变量创建模式时,我能够看到<class '
pyspark
.sql.types.
StructType
'>
的
变量类型,但是当我试图通过
JSON
文件
时,它显示
的
是unicode类型。有没有办法通过
JSON
文件
获取
pyspark
浏览 0
提问于2018-07-05
得票数 3
2
回答
如果一行
的
一个
列
值
为
空,则将返回整行
的
空
值
。
、
、
、
我可以看到该驱动程序id
的
列
号
值
为
NULL。]) StructField("driverId", In
浏览 3
提问于2021-10-02
得票数 0
回答已采纳
1
回答
使用
pyspark
解析
JSON
时不工作
的
嵌套
动态模式
、
、
我正在尝试从
嵌套
的
JSON
(具有动态模式)中提取某些参数,并使用
pyspark
生成火花数据。我
的
代码非常适合于第1级(key:value),但对于作为
嵌套
JSON
一部分
的
每一对(key:value)都无法获得独立
的
列
。注意-这不是确切
的
模式。它只是给出了模式
的
嵌套
性质
的
概念。("/use
浏览 2
提问于2019-04-28
得票数 0
回答已采纳
1
回答
如何使用
pyspark
和自定义python函数处理均匀
的
to流
、
、
我当前
的
设置是:我使用作为如何
读取
数据
的
示例,但是: 不能使用writeStream.start()"接收器,因为它在python
中
没有实现。当我尝试调用.rdd、.map或.flatMap时,我得到了一个异常:“必须使用foreach执行对流来源
的<
浏览 52
提问于2018-03-19
得票数 3
1
回答
验证
pyspark
中
的
无序架构
、
、
、
、
我想知道验证两个数据帧
的
模式
的
有效方法是什么,其中模式
中
的
字段顺序并不重要,我只希望数据帧
中
的
每个字段名具有相同
的
类型。另外,模式可能是
嵌套
的
,例如,StructField本身可能就是
StructType
。
浏览 0
提问于2020-11-18
得票数 0
2
回答
平放
Json
在火花公子里
、
、
、
{'period': {'year': 2021}, 'rainfall': 120}]}]import pandas as pd for entry in my_data2019 NA003 1
浏览 5
提问于2021-04-08
得票数 3
回答已采纳
1
回答
在
Pyspark
2.4
中
使用
StructType
验证
列
的
模式
、
、
我有一个dataframe,它
的
一个
列
是一个
JSON
字符串
from
pyspark
.sql import SparkSessionimport"]) 并希望通过使用模式
的
from_
json
解析
json
_str
列
schema =
StructType
([ StructField("key1",
浏览 21
提问于2019-09-19
得票数 0
1
回答
从
json
文件
中生成
的
Pyspark
格式自定义时间戳
、
、
我尝试从加载
的
json
文件
中
读取
自定义时间戳:from
pyspark
.sql.types import ArrayType, StructField,
St
浏览 2
提问于2020-05-20
得票数 0
回答已采纳
1
回答
json
文件
向三角湖
的
动态模式演化
、
、
、
我正在建立一个三角洲湖,我正在努力将我
的
json
数据加载到三角洲湖。我们有100种不同
的
json
文件
格式。都存储在一个数据湖里。问题是,当我将第一个
json
文件
加载到特定
的
增量-湖泊表时,
列
中
的
值
为
空。然后写到增量湖自动创建此列为
字符串
。下一个
文件
在同一
列
中
包含一个
嵌套
<em
浏览 2
提问于2022-02-05
得票数 0
1
回答
指定变量
的
对象类型
我从一个
json
文件
中
读取
了以下数据:from
pyspark
.sql.types import ArrayType, StructField,
St
浏览 3
提问于2020-05-20
得票数 0
回答已采纳
1
回答
阅读
json
从“运动”到“火种”时
的
问题
、
、
我正在尝试
读取
从
PySpark
.My到
JSON
的
流
JSON
数据,如下所示:我已经指定了模式,但是当spark
读取
数据时,我会得到from
pyspark
.sql.types import * from
pyspark
.sql.functions import from_
json
浏览 0
提问于2018-09-21
得票数 0
回答已采纳
1
回答
PySpark
TimestampType()提供了错误
的
转换: ValueError:年份52129超出范围
、
、
、
我通过Kafka从MongoDB获得了一个时间戳
值
为
PySpark
的
集合。在MongoDB
中
,模式如下: "$date": "2020-02-28T11:24:28.810Z"在
PySpark
中
,我使用了以下模式:
StructType
([...我使用from_
json
()来解析
json
字符串
浏览 24
提问于2020-05-21
得票数 1
1
回答
在
PySpark
-模式问题中展开
json
列
- AttributeError:'tuple‘对象没有属性'name’
、
、
、
、
我正在使用
pyspark
从mutli行
json
对象中提取数据。我能够在
文件
中
读取
,但无法解析几何图形
列
的
内容。+--------------------+--------------------+-------+但是,当我尝试在
P
浏览 2
提问于2021-11-11
得票数 1
2
回答
创建Spark DataFrame时从hdfs
文件
传递架构
、
我正在尝试
读取
存储在hdfs
的
文本
文件
中
的
模式,并在创建DataFrame时使用它。("col3",TimestampType(),True),
StructType
([StructField("col6", jsonDF = spark.read.schem
浏览 0
提问于2019-07-24
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
数据加载、存储与文件格式
JSON中的树状结构数据简介
输入与输出(二)
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券