腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
dataframe
将
多个
json
文件
数据
合
并到
一个
dataframe
中
、
、
、
、
我正在尝试在
一个
数据
帧
中
合并
多个
json
文件
数据
,然后再对该
数据
帧执行任何操作。假设我有两个
文件
file1.txt,file2.txt,它包含如下
数据
{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"}
浏览 6
提问于2017-03-02
得票数 0
回答已采纳
2
回答
将
数据
保存到HDFS的格式是什么?
、
、
、
创建
DataFrame
后,我可以将其保存为avro、csv或拼板格式。 在
dataframe
或rdd
中
是否有其他格式可用于在Hadoop中保存
数据
?
浏览 2
提问于2017-12-21
得票数 1
1
回答
将
多个
PySpark
DataFrames与MergeSchema合并
、
、
我想将
多个
PySpark
数据
帧合
并到
一个
PySpark
数据
帧
中
。它们都来自相同的模式,但是它们可能会有所不同,因为有时会缺少一些列(例如,模式通常包含200个具有已定义
数据
类型的列,其中
dataFrame
A有120列,
dataFrame
B有60列)。是否有可能在不写入和读取所有
数据
帧的情况下再次使用mergeSchema合并模式? 谢谢。
浏览 2
提问于2020-06-22
得票数 0
5
回答
如何有效地
将
多个
json
文件
读入
Dataframe
或JavaRDD?
、
、
我可以使用下面的代码来读取单个
json
文件
,但是我需要读取
多个
json
文件
并将它们合
并到
一个
Dataframe
中
。我该怎么做?
DataFrame
jsondf = sqlContext.read().
json
("/home/spark/articles/article.
json
"); 或者有一种方法可以
将
浏览 5
提问于2015-11-14
得票数 16
回答已采纳
2
回答
使用来自另
一个
dataframe
的
JSON
对象创建新的
数据
、
、
、
、
我有
一个
dataframe
,它在
一个
列
中
存储
一个
JSON
对象。我希望处理
JSON
对象来创建
一个
新的
dataframe
(列的数目和类型不同,每行将从
JSON
对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始
数据
集时,
将
字典(行)附加到列表
中
。data = [] global data f
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持
数据
作为输入。
、
、
、
我试图使用
pyspark
.pandas API在
数据
库上构造
数据
的共生矩阵。该代码在熊猫
中
运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联作为输入。我尝试使用psdf.sque
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
3
回答
在
pyspark
中将
数据
帧保存到本地驱动器上的
JSON
文件
、
、
、
我有
一个
数据
帧,我正尝试使用
pyspark
1.4将其保存为
JSON
文件
,但它似乎不起作用。当我给它提供目录的路径时,它会返回
一个
错误,声明它已经存在。我基于的假设是,它将在您提供的路径中保存
一个
json
文件
。df.write.
json
("C:\Users\username") 指定
一个
带有名称的目录不会产生任何
文件
,并会给出错误“crc : Mkdirs无法创
浏览 0
提问于2015-06-26
得票数 6
回答已采纳
1
回答
将
Dataframe
激发到StringType
、
、
、
在
PySpark
中
,如何
将
Dataframe
转换为普通字符串?我
将
PySpark
与Kafka一起使用,而不是硬编码代理名称,而是在
PySpark
中
参数化了Kafka broker名称。
Json
文件
保存了代理详细信息,Spark读取这个
Json
输入并将值赋值给变量。这些变量为带有字符串的
Dataframe
类型。当我
将
dataframe
传递
浏览 0
提问于2021-03-05
得票数 0
1
回答
如何在Julia中将
多个
DataFrames
文件
加载到
一个
JSON
中
?
、
、
using
JSON
3ls = ["j1.
json
",j2.
json
","j3.
json
"] 当我有
多个
json
文件
时,我该如何做呢?我可以在Julia
中
不使用任何循环的情况下
将
所有
json
<em
浏览 0
提问于2021-09-16
得票数 1
1
回答
根据特定的列
数据
,
将
Pyspark
数据
分解为
多个
json
文件
?
、
、
、
、
", "fruit": "Mango", "cost": "500"}Its类型:
pyspark
.sql.
dataframe
.
DataFrame
如何将此
json
浏览 4
提问于2022-01-19
得票数 2
回答已采纳
2
回答
如何在
Pyspark
中使用Scala类
、
、
、
、
我已经搜索了一段时间了,如果有任何方法在
Pyspark
中使用
一个
Pyspark
类,我还没有找到任何关于这个主题的文档或指南。假设我在Scala
中
创建了
一个
简单的类,它使用了一些apache-spark库,如下所示: def exe():
DataFrame
= { import sqlContext.impli
浏览 3
提问于2016-03-15
得票数 29
回答已采纳
1
回答
使用带块的熊猫读取大
json
数据
集
、
、
我想读
一个
6gb大小的
json
(我还有
一个
1.5GB的
json
),我试着和熊猫一起阅读(就用pd.read_
json
),很明显记忆消失了。然后,我试着用块状的平面图,就像: df = [] df_reader =pd.read_
json
(f, lines=True, chunksize=100
浏览 1
提问于2018-11-21
得票数 2
1
回答
从
多个
S3存储桶导入
pyspark
dataframe
,其中有一列指示条目来自哪个存储桶
、
、
我有
一个
按日期分区的S3存储桶列表。第
一个
存储桶标题为2019-12-1,第二个存储桶标题为2019-12-2,依此类推。这些存储桶
中
的每
一个
都存储我正在读取到
pyspark
dataframe
中
的拼图
文件
。从每个存储桶生成的
pyspark
dataframe
具有完全相同的模式。我想要做的是迭代这些存储桶,并将所有这些拼图
文件
存储到
一个
单独的
pyspark
<em
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
2
回答
将
字典列(作为字符串)解析为多列
、
我使用的是
Pyspark
,我有
一个
dataframe
,它的列如下所示: [{"id":111,"o_pos":3,"n_pos":3,"o_score":-3.0,"n_score":0.14572449,"i_pos":2},{"id":222,"o_pos":4,"n_pos":4,"o_score":-4.0,"n_score&
浏览 14
提问于2022-05-25
得票数 0
2
回答
在熊猫(python)
中
,能不能将星星之火(scala)转换成
数据
(Python)
、
、
、
Dataframe
是使用scala创建的。spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) ) 我想把这个转换成Pandas
Dataframe
PySpark
提供了.toPandas()来
将
火花
数据
转换成熊猫,但是scala(我可以找到)并没有对应的
数据
。
浏览 1
提问于2020-04-05
得票数 0
回答已采纳
1
回答
熊猫DataFrames的SQLAlchemy模型存储
、
、
、
我正在构建
一个
烧瓶应用程序,允许用户上传CSV
文件
(包含不同的列),预览上传的
文件
,生成摘要统计
数据
,执行复杂的转换/聚合(有时通过芹菜作业),然后导出修改过的
数据
。上传的
文件
正在被读取到熊猫
DataFrame
中
,这让我能够优雅地处理大部分复杂的
数据
工作。 我希望这些DataFrames连同相关的元
数据
(上传的时间,用户上传
文件
的ID,等等)。若要持久化并可供
多个
用户传递
浏览 1
提问于2014-05-06
得票数 13
1
回答
使用
Pyspark
从REST API获取
数据
到Spark
Dataframe
、
我正在构建
一个
数据
管道,它使用
json
格式的RESTApi
数据
并推送到Spark
Dataframe
。SQLContext.jsonRDD(rdd) from
pyspark
.sql import Spa
浏览 27
提问于2020-06-24
得票数 2
回答已采纳
1
回答
使用
Pyspark
将
文件
从
一个
目录移动到HDFS
中
的另
一个
目录
、
、
、
我试图从
一个
目录
中
读取所有
JSON
文件
,并使用下面的代码将它们存储在
中
。(效果很好) 但是,当我尝试用
多
浏览 1
提问于2021-01-18
得票数 0
回答已采纳
1
回答
向类添加功能的最佳方法-
PySpark
、
、
、
、
有一段时间,我在寻找如何
将
多个
列一次重命名为
一个
PySpark
DF,并遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper,其中通过赋值语句
将
方法添加到
pyspark
.
DataFrame
类
中
。问题是,我正在创建
一个
Github来存储我的所有函数和ETL,我认为如果我能够应用上面显示的逻辑,就可以非常容易地创建
一个
浏览 6
提问于2020-07-09
得票数 1
2
回答
有没有办法在
pyspark
中
逐个访问数组(Struct)
中
的
多个
JSON
对象
、
、
、
、
我对
pyspark
和
json
解析还是个新手,我被困在了某些特定的场景
中
。让我先解释一下我要做什么,我有
一个
json
文件
,其中有
一个
数据
元素,这个
数据
元素是
一个
包含另外两个
json
对象的数组。给定的
json
文件
如下所示 "id": "da20d14c.92ba6", "type": &
浏览 142
提问于2019-06-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
将多个Excel工作表合并到一个Pandas数据帧中
遇见YI算法之初识Pyspark(二)
PySpark,一个大数据处理利器的Python库!
PySpark,大数据处理的Python加速器!
PySaprk之DataFrame
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券