腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(526)
视频
沙龙
1
回答
rdd
:
尝试
将
rdd
dataframe
作为
Py4JJavaError
文件
写入
本地
目录
时
调用
o389
parquet
时
出错
、
、
、
、
我正在
尝试
使用Jupyter笔记本中的以下代码
将
dataframe
写入
我的
本地
目录
中的
parquet
文件
:
rdd
1 =
rdd
.coalesce(partitions) :
浏览 192
提问于2021-11-20
得票数 1
1
回答
是否可以允许用户在FastAPI或烧瓶中下载的结果?
、
、
、
最后,我想把
DataFrame
写到用户的磁盘上,
作为
一个拼花
文件
。由于以下几个原因,我不太清楚如何
将
文件
以拼花格式传递给用户: df.write.
parquet
('out/path.
parquet
')
将
数据
写入
out/path.
parquet
的一个
目录
,当我试图
将
数据传递给将我知道存在的单个.
parquet
文件<
浏览 3
提问于2020-01-15
得票数 0
回答已采纳
1
回答
当
写入
和重读到
parquet
文件
时
保留数据分区。
、
当我将带有定义分区的数据
文件
写入
磁盘
时
,将其
作为
拼板
文件
,然后再次重新读取拼图
文件
,分区就会丢失。是否有一种方法可以在
写入
和重读过程中保留数据的原始分区?第二个数字在我看来也不错:我得到了100个*.
parquet
文件
、100个*.
parquet
.crc
文件
和两个_SUCCESS
文件
,所以这个拼图
文件
仍然由100个分区组成。第三行显示,在再次读取拼花
文件<
浏览 0
提问于2018-06-28
得票数 8
回答已采纳
1
回答
星星之火Java映射函数将被执行两次
、
、
、
我有上面的代码
作为
火花驱动程序,当我执行我的程序,它正确地保存所需的数据
作为
Parquet
文件
。Read json string array into a
Dataframe
(execution 1)dataSchemaDF.write().
parquet</
浏览 0
提问于2016-10-16
得票数 5
回答已采纳
4
回答
如何在不覆盖的情况下
将
火花流输出
写入
HDFS
、
经过一些处理后,我有了一个DStream[String,ArrayListString],所以当我使用saveAsTextFile将它
写入
hdfs
时
,在每批处理之后它都会覆盖数据,那么如何通过附加到以前的结果来
写入
新的结果output.foreachRDD(r => {}) 编辑::如果有人可以帮助我
将
输出转换成avro格式,然后用附加的方式
写入
HDFS
浏览 3
提问于2017-06-12
得票数 3
回答已采纳
1
回答
从包含实际
文件
路径的文本
文件
中生成
rdd
、
我必须从包含原始文本
文件
路径的文本
文件
中生成
rdd
。我有一个
目录
,其中包含三个
文件
-- hw2-file-10mb.txt(the hw2-file.txt、实际文本
文件
)和hw2.ipynb,这是我必须处理的一个jupyter笔记本。我的hw2-file.txt包含 with open('.:
调
浏览 0
提问于2019-06-18
得票数 0
3
回答
如何在Apache Spark中处理变化的拼图模式
、
、
、
、
我遇到了一个问题,我在S3中
将
拼图数据
作为
每日数据块(以s3://bucketName/prefix/YYYY/MM/DD/的形式),但我无法从不同的日期读取AWS EMR Spark中的数据,因为一些列类型不匹配但是当编写拼图
文件
时
,问题就出现了。据我所知,当我使用元数据
文件
编写
parquet
时
,这些
文件
包含了
parquet
文件
的所有部分
浏览 0
提问于2016-12-02
得票数 24
回答已采纳
1
回答
如何在LabeledPoint中序列化PySpark中的
RDD
?
、
、
、
我需要保存一个
RDD
of ( key,val),其中键是字符串,val是LabeledPoint
RDD
(label,SparseVector)。错误如下所示。:
调用
Py4JJavaError
时
出错
::net.razorvine.pickle.objects.ClassDictConstructor.construct(ClassDictConstructor.java方法,当它不需要
时
,我
尝试
传递它的参数。 编辑2:按照zero323的建议(谢谢
浏览 23
提问于2015-11-12
得票数 3
回答已采纳
2
回答
持久化火花流输出
、
、
我对我
尝试
过的每一种方法都有异议。但是,对于我来说,所提供的解决方案似乎并不理想,例如,
作为
一个用户状态--只有在数据很少的情况下,拥有单个输出
文件
才是个好主意。
将
RDD
数据直接插入到单元表中。我
尝试
过调整批处理间隔大小,运行更多的使用者实例。
浏览 3
提问于2015-10-01
得票数 8
3
回答
Spark 2.3
Dataframe
分区-想要在n个分区中对key上的数据进行分区
、
、
、
我需要spark(scala)数据帧分区方面的帮助。我需要将一个键列划分为n个分区,所有与相同key相关的行都应该在同一个分区中(即key不应该跨分区分布)例如:假设我有下面的数据帧诸若此类提前感谢
浏览 4
提问于2020-03-13
得票数 0
3
回答
如何配置pyspark默认
写入
HDFS?
、
、
默认情况下,我正在
尝试
将
spark
写入
HDFS。目前,当我在
RDD
上
调用
saveAsTextFile
时
,它会
写入
我的
本地
文件
系统。具体地说,如果我这样做:
rdd
.saveAsTextFile("/tmp/sample") 它将
写入
我的
本地
文件<
浏览 0
提问于2017-11-28
得票数 1
1
回答
在多个分区的
DataFrame
中,读取单个
文件
的单块分割结果
、
、
、
上下文 | year=2020 \ | year=2021 \尽管我检索了正确的数据,但火花仍然有两个分区连接到
DataFrame
浏览 2
提问于2021-12-17
得票数 2
回答已采纳
2
回答
将
RDD
分解到多个ORC表上
、
我正在
尝试
将
存储在S3中的数据转换为JSON逐行文本
文件
,将其转换为结构化的、列式格式,如S3上的ORC或
Parquet
。 StructField("sessionId", StringType)我把这部分做得很好,但是尽可能高效地
将
数据写回我
尝试
了三种方法:
浏览 0
提问于2016-12-14
得票数 6
回答已采纳
4
回答
在循环中评估火花
DataFrame
会随着每次迭代而减慢,所有的工作都是由控制器完成的。
、
、
我正在
尝试
使用星火集群(运行在AWS EMR上)来链接具有公共元素的项目组。本质上,我有一些元素的组,如果其中一些元素在多个组中,我想要创建一个包含来自所有这些组的元素的组。我从一个表(
DataFrame
) item_links开始,它有两个列:item和group_name。项在每个组中是唯一的,但在此表中不是唯一的。一个项目可以在多个组中。我
将
这些信息
作为
额外的列附加到原始
DataFrame
中。然后,通过按组名分组并在每个组中找到这个新列的最小值来创建一个新的
DataFrame
。我使
浏览 4
提问于2016-08-22
得票数 13
回答已采纳
1
回答
为什么在减少分区数量
时
,spark数据帧重新分区比合并更快?
、
我有一个有100个分区的df
文件
,在保存到HDFS
作为
.
parquet
之前,我想减少分区的数量,因为拼图
文件
太小(<1MB)。当我
尝试
重新分区
时
:这个过程一点也不慢,每个
文件
2-3秒。背景: 我正在
将</em
浏览 16
提问于2021-05-20
得票数 1
0
回答
Spark:在
写入
本地
文件
系统
时
,saveAsTextFile()只创建成功
文件
,不创建部件
文件
、
我正在使用以下命令
将
RDD
写入
文件
:当FilePath为HDFS path (hdfs://node:9000/folder/)
时
,一切正常。当FilePath是
本地
路径(file:///home/user/folder/)
时
,一切似乎都正常。输出
文件
夹
浏览 9
提问于2017-06-14
得票数 9
1
回答
Spark - on电子病历saveAsTextFile不会将数据
写入
本地
目录
、
、
在
尝试
将
RDD
写入
本地
文件
时
,我在name/master节点上没有得到任何结果。在我之前的EMR集群上(使用bootstrap脚本安装了相同版本的Spark,而不是
作为
EMR的附加组件),数据
将
写入
name节点上的
本地
目录
。现在我可以看到它出现在集群中其他节点上的"/home/hadoop/test/_temporary&
浏览 2
提问于2015-08-06
得票数 0
1
回答
熊猫到PySpark会产生OOM错误而不是溢出到磁盘上
、
、
、
我有一个用例,在这个用例中,我想迭代地
将
数据加载到Pandas中,使用外部函数(即xgboost,在示例代码中没有显示)进行一些处理,然后
将
结果推到单个PySpark对象(
RDD
或DF)中。在
将
数据存储为
RDD
或
Dataframe
时
,我
尝试
让PySpark溢出到磁盘,同样,源是Pandas
DataFrame
。似乎什么都没有用,我一直在破坏Java驱动程序,无法加载数据。或者,我
尝试
加载我的数据而不使用基本的text
浏览 1
提问于2017-09-18
得票数 0
1
回答
Spark scala输入/输出
目录
、
、
我这里有两个问题,这两个问题都是在spark环境/ Windows
本地
运行的:1. scala程序是如何识别输入的。2.如何
将
输出
写入
文本
文件
。) counts.saveAsTextFile("file:/home/root1/Avinash/output") } 当我
将
文件
放在/home/root1/Avinash
浏览 0
提问于2016-04-29
得票数 0
1
回答
星火
本地
模式-所有作业只使用一个CPU核心
、
、
、
谢谢1)使用sqlContext从磁盘(S3)读取gzipped CSV
文件
1,并使用com.databricks.spark.csv (S3)读取
DataFrame
DF1。2)使用sqlContext从磁盘(S3)读取gzipped CSV
文件
2,并将其从磁盘(S3)读入
DataFrame
DF2。5)呼吁农村发展和农村发展联盟 6)在统一的RDDs上
调用
reduceByKey()以“按键合并”,因此有一个Tuple>),只有一个特定键的实例(在
RDD
1和
浏览 2
提问于2016-10-31
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark之SparkSQL
我用Rust徒手重写了一个Spark,并把它开源了
教程:Apache Spark SQL入门及实践指南!
大数据学习之Spark缓存机制
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券