腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
中
从
JSON
到
Dataframe
的
数组
、
、
我在从
Json
文件
中
读取项目时遇到了一些问题,并且在将数据
从
Json
文件中提取到列时也遇到了一些问题。, "gender":"bushes",} 我希望将这个
JSON
对象放在一个数据帧
中
,如下所示 +--------------
浏览 3
提问于2021-09-16
得票数 0
回答已采纳
2
回答
有没有办法在
pyspark
中
逐个访问
数组
(Struct)
中
的
多个
JSON
对象
、
、
、
、
我对
pyspark
和
json
解析还是个新手,我被困在了某些特定
的
场景
中
。让我先解释一下我要做什么,我有一个
json
文件,其中有一个数据元素,这个数据元素是一个包含另外两个
json
对象
的
数组
。:意思是迭代
到
json
的
第一个对象,将其存储
到
一个
dataframe
中
,然后迭代
到
第二个对象,并将其存储
到
另一个
d
浏览 142
提问于2019-06-05
得票数 0
回答已采纳
2
回答
使用来自另一个
dataframe
的
JSON
对象创建新
的
数据
、
、
、
、
我有一个
dataframe
,它在一个列
中
存储一个
JSON
对象。我希望处理
JSON
对象来创建一个新
的
dataframe
(列
的
数目和类型不同,每行将从
JSON
对象生成n个新行)。我在下面编写了这样
的
逻辑:在迭代原始数据集时,将字典(行)附加到列表
中
。data = [] global data for item in row.
json</em
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
2
回答
将数据保存到HDFS
的
格式是什么?
、
、
、
创建
DataFrame
后,我可以将其保存为avro、csv或拼板格式。 在
dataframe
或rdd
中
是否有其他格式可用于在Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
2
回答
从
pyspark
.sql.
dataframe
.
DataFrame
到
数组
、
、
假设我有下面的
DataFrame
。import
pyspark
.sql.functions as f| 9| 4| D|| 10| 2| B|如何创建具有基于value列
的
值
的
数组
的
新框架
浏览 0
提问于2018-12-17
得票数 0
1
回答
使用
Pyspark
从
数组
中
读取
JSON
项?
、
、
、
我在从databricks
中
的
Cosmos DB读取项目时遇到了一些问题,它似乎将
JSON
读取为字符串值,并将数据
从
JSON
中
读取到列
中
。Green", "max": 1000000, } ] 在Cosmos DB
中
,
JSON</e
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
1
回答
'HiveContext‘对象没有属性'jsonRDD’Spark2.1.1
、
、
、
、
我正在
PySpark
上学习一个视频课程。我试图使用下面的代码将
json
字符串转换为
dataframe
。import
pyspark
as ps meals_
dataframe
.first() 当tring运行最后一行时,我会出现以下错
浏览 2
提问于2017-10-02
得票数 2
回答已采纳
1
回答
如何将
dataframe
列转换为字典
、
首先,我要预先感谢大家
的
帮助!我有4张桌子,我加入了它们,得到了一个
PySpark
数据。').cast('string'))它显示类型为
dataframe
:无论如何,我再次尝试使用"loads“方法:但我也犯了同样
的
错误: TypeError: the
J
浏览 4
提问于2022-04-26
得票数 0
1
回答
json
文件
到
pyspark
dataFrame
中
、
、
、
、
我已经下载了一个
json
文件,我正在尝试将其放入
DataFrame
中
,以便进行一些分析。raw_constructors = spark.read.
json
("/constructors.
json
")+--------------------+我得到了这个
浏览 7
提问于2021-05-17
得票数 0
回答已采纳
1
回答
我是否需要使用普通
的
python,除了
pyspark
,或者
pyspark
拥有我所需要
的
所有东西?
、
、
、
我
的
公司正转向使用Hadoop & learning进行机器学习。我知道python在库
中
是非常全面的,但是当我们切换到
pyspark
时,如果我们需要
的
东西还没有在
pyspark
中
可用呢?而且,继续使用python可能更容易一些,因为我已经知道了python.So: 你能把它们混合在一起,用python
浏览 4
提问于2017-08-30
得票数 0
2
回答
如何生产熊猫数据行以激发数据
、
、
、
、
嗨,我正在进行转换,我已经创建了some_function(iter)生成器
到
yield Row(id=index, api=row['api'], A=row['A'], B=row['B'],以生成
从
熊猫数据格式
到
(我必须使用熊猫来转换数据,因为有大量
的
遗留代码)respond_sdf.show() +-------------------------------------(url_
json</
浏览 5
提问于2020-12-22
得票数 2
回答已采纳
1
回答
Json
文件
到
pyspark
dataframe
、
、
、
、
我正尝试在spark (
pyspark
)环境中使用
JSON
文件。问题:无法将
JSON
转换为
中
的
预期格式 在该文件
中
,元数据是在带有标记"meta“
的
文件
的
起始位置定义
的
,然后是带有标记" data”
的
数据。FYI:将数据
从
网络下载到本地驱动器
的
步骤。1.我已经下载了文件到我
的
本地驱动器2。然后推到hdfs -从那里我
浏览 2
提问于2018-03-21
得票数 2
回答已采纳
1
回答
如何使用
Pyspark
创建空值
的
新列?
、
我有一个名为eventkey
的
列,它是以下元素
的
连接:account_type、counter_type和我有一个名为apply_event_key_transform
的
函数,在该函数
中
,我希望拆分连接
的
事件键def apply_event_key_transform(data_frame:
DataFrame
): output_df = data_frame.withColumn("account_type, getBiSidUDF(data_frame.event
浏览 5
提问于2022-05-12
得票数 0
1
回答
使用带块
的
熊猫读取大
json
数据集
、
、
我想读一个6gb大小
的
json
(我还有一个1.5GB
的
json
),我试着和熊猫一起阅读(就用pd.read_
json
),很明显记忆消失了。然后,我试着用块状
的
平面图,就像: df = [] df_reader =pd.read_
json
(f, lines=True, chun
浏览 1
提问于2018-11-21
得票数 2
1
回答
将
Dataframe
激发到StringType
、
、
、
在
PySpark
中
,如何将
Dataframe
转换为普通字符串?我将
PySpark
与Kafka一起使用,而不是硬编码代理名称,而是在
PySpark
中
参数化了Kafka broker名称。
Json
文件保存了代理详细信息,Spark读取这个
Json
输入并将值赋值给变量。这些变量为带有字符串
的
Dataframe
类型。当我将
dataframe
传递给
Pyspark
连接细节以替换值时,
浏览 0
提问于2021-03-05
得票数 0
2
回答
火花:
Dataframe
变换
、
、
、
、
我有
dataframe
_1| Name| Age| Salary|| Jae Crowder|25.0|6796117.0|并希望将其转换为
dataframe
------------------------------------------------------------------------
浏览 5
提问于2021-05-25
得票数 0
回答已采纳
2
回答
中
跨多行
json
字符串
的
统一模式
、
对于包含一系列
json
字符串
的
PySpark
DataFrame
中
的
行,我有一个困难
的
问题。问题
的
核心是每一行可能包含与另一行不同
的
模式,所以当我想将上述行转换为
PySpark
中
的
可订阅数据类型时,我需要有一个“统一”模式。({'A': [1, 2, 3], 'B': [
json
_1,
json
_2, <e
浏览 1
提问于2020-05-08
得票数 5
回答已采纳
1
回答
火花爆炸列与
json
数组
对行
、
、
如何定义
json
数组
的
架构,以便将其分解为行?[{"name":"name1","id":"1"}, {"name":"name2","id":"2"}]//
浏览 3
提问于2020-04-06
得票数 0
回答已采纳
1
回答
如何使用Python /
Pyspark
合并数据库
中
的
数据
、
、
、
我正在使用Databricks笔记本来提取gz压缩
的
csv文件并加载到
dataframe
对象
中
。我对下面的第2部分有困难。TypeError:无法连接类型为'<class‘>
的
对象.sql.
dataframe
.
DataFrame
’>;只有Series和
DataFrame
objs有效 对于我如何合并数据文件有什么建议吗我将有多达20个
浏览 5
提问于2021-02-10
得票数 1
回答已采纳
2
回答
如何加载一个20 in
的
json
文件来读入pandas?
、
、
、
我有一个19.4 GB大小
的
JSON
文件。我尝试了很多方法来读取文件。例如:pandas.read_
json
(filename)简单地使笔记本崩溃。我正在寻找以惰性方式加载文件
的
方法。例如,一次1 db,然后将其转储
到
SQLite或neo4j数据库
中
以分析数据。任何关于这方面的想法都会非常感谢。
浏览 17
提问于2021-01-05
得票数 0
点击加载更多
相关
资讯
Java Jackson 中如何 Pending JSON 对象到数组中
按出现次数从少到多的顺序输出数组中的字符串
遇见YI算法之初识Pyspark(二)
PySpark,一个大数据处理利器的Python库!
一个Python大数据处理利器:PySpark入门指南
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券