腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
从
json
模式
表示
创建
spark数据帧
模式
apache-spark
、
apache-spark-sql
有没有办法将数据帧
模式
序列化为
json
,并在以后反序列化它? 用例很简单:我有一个
json
配置
文件
,其中包含我需要读取
的
数据帧
的
模式
。我希望能够
从
现有
模式
(在
dataframe
中
)
创建
默认配置,并且能够通过从
json
字符串
中
读取相关
模式
来生成稍后使用
的
相关
模式
。
浏览 1
提问于2016-12-04
得票数 30
回答已采纳
1
回答
如何
从
pyspark
中
的
schema
json
文件
创建
DataFrame
模式
?
pyspark
我正在尝试使用
Pyspark
从
schema
json
文件
创建
DataFrame
模式
。一旦
创建
了
DataFrame
模式
,我将使用此
模式
加载
json
数据
文件
。有人能帮帮我吗?提前谢谢。对于我
的
模式
json
文件
,如下所示: [ "name": &
浏览 45
提问于2021-10-13
得票数 0
1
回答
用
中
的
自定义
模式
读取
pySpark
中
的
JSON
json
、
google-cloud-platform
、
apache-spark-sql
、
pyspark-dataframes
、
google-cloud-dataproc
在GCP (使用
pySpark
)
中
,我正在执行一项任务,即按照自定义
模式
读取
JSON
文件
并将其加载到
Dataframe
中
。我有以下示例测试
JSON
:"id": "1","descr
浏览 0
提问于2021-03-22
得票数 2
2
回答
从
JSON
文件
中
获取
Pyspark
模式
python
、
json
、
apache-spark
、
pyspark
我试图
从
JSON
文件
中
获取
Pyspark
模式
,但是当我使用Python代码
中
的
变量
创建
模式
时,我能够看到<class '
pyspark
.sql.types.StructType'>
的
变量类型,但是当我试图通过
JSON
文件
时,它显示
的
是unicode类型。有没有办法通过
JSON
<e
浏览 0
提问于2018-07-05
得票数 3
12
回答
如何
创建
一个空
的
DataFrame
?为什么"ValueError: RDD是空
的
“?
apache-spark
、
pyspark
我正在努力
创建
一个空
的
数据在火花(火花)。df = sqlContext.createDataFrame(sc.emptyRDD(),
schema
)Traceback (most recent call last):/sql/context.py", line 404, in createDataFrame rdd,
schema
= self._createFromRDD(da
浏览 4
提问于2016-01-06
得票数 34
回答已采纳
2
回答
将字典列(作为字符串)解析为多列
python
、
pyspark
我使用
的
是
Pyspark
,我有一个
dataframe
,它
的
列如下所示: [{"id":111,"o_pos":3,"n_pos":3,"o_score":-3.0,"n_score":0.14572449i_pos":2},{"id":222,"o_pos":4,"n_pos":4,"o_score":-4.0,"n_scor
浏览 14
提问于2022-05-25
得票数 0
2
回答
将字符串转换为
pyspark
.sql.types.StructType
pyspark
dataframe
、
pyspark
我试图在
pyspark
中
创建
空
的
dataframe
,在
pyspark
中
,我
从
外部
JSON
文件
传递scehma,但是
Json
不允许我指定struct类型,所以我提到它是string。
json
文件
: "OptionalEvents" : { "StructType([Struc
浏览 39
提问于2021-08-23
得票数 1
回答已采纳
5
回答
如何
从
PySpark
中
的
数据
中
获取
模式
定义?
apache-spark
、
dataframe
、
pyspark
、
schema
、
azure-databricks
在
PySpark
中
,您可以使用这个预定义
的
模式
定义
模式
和读取数据源,例如: ]) 对于某些数据源,可以
从
数据源推断
模式
,并使用此
模式
定义
浏览 0
提问于2019-02-03
得票数 36
回答已采纳
2
回答
中
跨多行
json
字符串
的
统一
模式
python
、
pyspark
对于包含一系列
json
字符串
的
PySpark
DataFrame
中
的
行,我有一个困难
的
问题。问题
的
核心是每一行可能包含与另一行不同
的
模式
,所以当我想将上述行转换为
PySpark
中
的
可订阅数据类型时,我需要有一个“统一”
模式
。({'A': [1, 2, 3], 'B': [
json
_1, <
浏览 1
提问于2020-05-08
得票数 5
回答已采纳
1
回答
JSON
中
的
无效字符
python
、
pyspark
、
apache-spark-sql
、
pypi
、
azure-databricks
我有一个字符串格式
的
结构类型数组
的
JSON
。当我试图在一个
json
文件
中
写同样
的
东西时,我得到了下面的错误。我使用此输出
文件
进行
模式
验证,但由于特殊字符而导致失败。from
pyspark
.sql import Rowfrom
pyspark
.sql.types import * import
浏览 14
提问于2019-08-03
得票数 0
0
回答
用于在
PySpark
中
定义
JSON
Schema
结构
的
配置
文件
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我已经
创建
了一个
PySpark
应用程序,它通过定义
的
模式
读取数据帧
中
的
JSON
文件
。下面的代码示例 StructField("domain", StringType(), True),])
浏览 3
提问于2016-07-09
得票数 9
1
回答
从
模式
中
删除标点符号
json
、
pyspark
我有一个
json
文件
,我可以通过:
json
是嵌套
的
,一些嵌套
的
列名中有标点符号。当我试图
创建
一个非托管表时,这会产生问题。我可以通过
创建
一个具有有效列名
的
模式
来解决这个问题,但是这是一个劳动密集
的
过程,因为我有许多
文件
,每个
文件
都有许多名称。我希望能够读取
json
文件
,通
浏览 0
提问于2019-09-03
得票数 0
回答已采纳
2
回答
使用来自另一个
dataframe
的
JSON
对象
创建
新
的
数据
python
、
json
、
pandas
、
dataframe
、
pyspark
我有一个
dataframe
,它在一个列
中
存储一个
JSON
对象。我希望处理
JSON
对象来
创建
一个新
的
dataframe
(列
的
数目和类型不同,每行将从
JSON
对象生成n个新行)。我在下面编写了这样
的
逻辑:在迭代原始数据集时,将字典(行)附加到列表
中
。data = [] global data for item in row.<em
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
1
回答
使用
Pyspark
从
数组
中
读取
JSON
项?
json
、
pyspark
、
databricks
、
azure-databricks
我在从databricks
中
的
Cosmos DB读取项目时遇到了一些问题,它似乎将
JSON
读取为字符串值,并将数据
从
JSON
中
读取到列
中
。Green", "max": 1000000, } ] 在Cosmos DB
中
,
JSON</e
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
3
回答
PySpark
: TypeError: col应该是列
json
、
dataframe
、
apache-spark
、
pyspark
、
typeerror
我正在尝试
从
嵌套
的
JSON
结构
中
创建
一个
dataframe
,但是我遇到了一个我不明白
的
问题。我已经在
JSON
中
爆炸了一个dicts数组结构,现在我正在尝试访问这些数据集,并
创建
包含其中
的
值
的
列。",
dataframe
.keywords_exp.name)
PySpark
: TypeError: col应该是列 在di
浏览 7
提问于2022-08-04
得票数 1
回答已采纳
2
回答
不能解析
json
中
的
时间戳。
python
、
json
、
timestamp
、
pyspark
例如,给定以下
json
(命名为‘
json
’):和下面的python脚本:from
pyspark
.sql import SQLContextsc = S
浏览 8
提问于2017-05-09
得票数 0
回答已采纳
2
回答
Pyspark
:
从
JSON
文件
创建
模式
pyspark
、
apache-spark-sql
、
jsonschema
我正在处理来自非常长
的
嵌套
JSON
文件
的
数据。问题是,这些
文件
的
结构并不总是与其他
文件
的
列相同。我希望
从
包含所有列
的
空
JSON
文件
中
创建
一个自定义
模式
。我到目前为止所做
的
: 将测试
JSON
(不包含所有可以预期
的
列)加载到dataframewriting
中
<
浏览 7
提问于2021-10-26
得票数 3
回答已采纳
1
回答
如何
将
PySpark
RDD转换为具有未知列
的
Dataframe
?
python
、
dataframe
、
pyspark
、
rdd
我是通过从RDD
中
的
文本
文件
加载数据来
创建
PySpark
的
。现在,我想将这个RDD转换成一个
dataframe
,但是我不知道RDD中有多少列和列。我试图了解
如何
创建
schema
,但大多数示例都显示了一个硬编码
模式
创建
示例。现在,由于我不知道列是什么,所以
如何
将rdd转换为
dataframe
?注释1:我不知道列
的
原因是因为我试图<
浏览 9
提问于2017-04-07
得票数 2
2
回答
使用作为
JSON
文件
提供
的
模式
创建
dataframe
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
我
如何
用2个
JSON
文件
创建
一个吡火花数据框架?file1 :该
文件
具有完整
的
数据file2:该
文件
只有file1数据
的
架构.{"RESIDENCY":"AUS","EFFDT":"01-01-1900","EFF_STATUS":"A
浏览 4
提问于2020-03-06
得票数 2
1
回答
从
postgresql提取数据到
pyspark
dataframe
时,我是否应该使用
模式
python
、
pyspark
、
schema
、
pyspark-sql
我有一个
从
postgresql数据库
中
获取数据
的
pyspark
任务。在读取数据时,我是否应该使用
Schema
来优化数据并加快提取速度?(据我所知,在读取数据时正常
创建
模式
会使读取速度更快) 然后将数据转换为pandas数据帧,在此转换
中
,我应该指定
模式
还是已经优化?
浏览 0
提问于2019-05-10
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark之SparkSQL
Python开源数据分析工具TOP 3!
PySaprk之DataFrame
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券