腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
PySpark
上
按
大小
分区
文件
、
我正在使用
PySpark
对一个df进行
分区
,并在S3
上
写入10个
分区
:如何根据
分区
大小
而不是
分区
数量对df进行
分区
。例如:我想有n个50MB的
分区
。
浏览 18
提问于2020-03-12
得票数 1
回答已采纳
1
回答
为聚合增加或减少
分区
?
、
、
我不确定在执行聚合操作时是否应该增加或减少
分区
的数量。假设我使用的是火花放电数据格式。
pyspark
1.6.1。增加
分区
数量的论据:由于为了聚合,我们必须对数据进行洗牌,所以您需要对周围的数据进行洗牌,从而增加
分区
的数量,以减小
分区
的
大小
。减少
分区
数量的参数
浏览 1
提问于2017-08-10
得票数 1
回答已采纳
1
回答
为什么
分区
的数目是由32 of的分割
大小
决定的?
、
、
我有一个849 of的输入
文件
。当我使用sc.textFile()
在
pyspark
中读取这个
文件
并检查no时。对于
分区
,它是27个。我还有一个2.60GB
大小
的
文件
,这个
文件
的编号。
分区
是84个。我
在
本地运行,有4个核心。 但是当我检查dfs.block.size时,它是128 it。我不知道发生了什么,以及我的
pyspark
是如何计算
分区
数的。
浏览 1
提问于2022-04-09
得票数 -1
回答已采纳
1
回答
当动作结果
大小
大于机器内存时,它是如何工作的?
、
pyspark
collect()(action)为1 1gb的机器的存储和内存
大小
。但是我得到的
文件
大小
是4 1gb (存储
在
4个
分区
中,每个
分区
的
大小
为1 1gb)。
浏览 17
提问于2019-07-10
得票数 1
回答已采纳
2
回答
如何在Azure HDInsight
上
设置镶木镶木块
大小
?
、
、
、
、
我有大约3500个csv,我将其转换为
按
日期划分的镶木地板(此数据跨越7天)。我想设置拼图
文件
的
大小
,使每个
文件
都是1 1gb。目前,我收到的
文件
太多(每天400-600个),
大小
从64 MB到128 MB不等。我可以重新
分区
(使用repartition/coalesce)到x个
文件
,每个
分区
(天),但我仍然有不同的
文件
大小
,这取决于一天中存在的数据量,所以第一天可能有20 gb,所以10
浏览 2
提问于2017-07-19
得票数 0
1
回答
如何确定星火应用程序的洗牌
分区
?
、
、
、
我是新来的火花,所以我跟随这个来自sparkbyexamples.com的令人惊奇的教程,
在
阅读的时候我发现了这个部分:基于您的数据集
大小
,多个核心和内存
PySpark
洗牌可能对您的工作有利或有害当您处理较少的数据量时,您通常应该减少洗牌
分区
,否则您将得到许多
分区
文件
,每个
分区
中的记录数会更少。这导致运行了许多任务,需要处理的数据较少。另一方面,当您有太多的数据,而
分区
数量较少时,会导致运行时
浏览 1
提问于2021-05-22
得票数 3
1
回答
Pyspark
中的范围划分
、
、
、
对于100个
分区
,我该如何
按
范围进行
分区
?我
在
Scala中见过RangePartitioner类,但在
PySpark
应用程序接口中似乎没有它。我有一个非常大的数据集,目前正在按唯一id进行
分区
,但这创建了太多的
分区
。我想知道
在
PySpark
中关于范围
分区
的最佳实践 df.write.partitionBy('unique_id').mode('overwrite').csv(f
浏览 19
提问于2019-04-18
得票数 1
回答已采纳
1
回答
在
Databricks中的一个非常大的、糟糕的
分区
表
上
向Partion添加新列
、
、
、
我对databricks很陌生,我很好奇是否有更好的方法
在
非常大的表
上
添加要
分区
的列。我想在表中添加一个新列,以便
按
(日期列)进行
分区
,
在
尝试添加列和保存表时,
在
尝试某些默认建议之后,我会遇到一些超时/内部错误。fr
浏览 6
提问于2022-02-14
得票数 1
2
回答
Dataproc未使用
pyspark
并行处理大数据
、
、
我
在
GCP中启动了一个DataProc集群,有一个主节点和3个工作节点。每个节点有8个vCPU和30G内存。gcloud dataproc jobs submit
pyspark
gs://<my-gcs-bucket>/<my-program>.py \
浏览 4
提问于2021-05-03
得票数 0
1
回答
Pyspark
:使用dataframe
在
hive
分区
表
上
用新数据替换旧数据
、
、
您能指导我使用
pyspark
(dataframe)
在
特定的hive
分区
上
用新数据替换旧数据吗?每个月我都会收到一些县的记录。我想用该
分区
上
的新数据替换旧数据。我已经使用
pyspark
开发了脚本,并在数据帧中加载了特定
分区
的新数据。现在,我想单独为该
分区
用新数据替换旧数据(因为基表很大)。 我尝试删除该
分区
并附加新的数据帧。<e
浏览 8
提问于2016-08-16
得票数 2
3
回答
用Spark的S3方法分割S3中一个大的倾斜数据集
、
、
问题#1val df = spark.read.parquet("some_data_lake")问题#2这段代码会写出大量的
文件
。df.write.partitionBy("s
浏览 1
提问于2018-10-28
得票数 23
回答已采纳
1
回答
超块中的坏幻数:红帽6
、
、
我
在
RHEL6.9
上
扩展了一个磁盘。
在
新磁盘上运行resize2fs时,我会得到超级块错误。/dev/sdc1 1,并重新创建以扩展到空间的其余部分,我没有在其
上
编写
文件
系统,因为我们有它的数据。我运行了以下步骤:
在
右磁盘上运行fdisk (X是磁盘的正确字母):fdisk /dev/sdX通过
按
p (查看
分区
详细信息)检查
分区
表,通过
按
d(删除
分区
)删除<
浏览 0
提问于2019-06-22
得票数 1
1
回答
从非
分区
单元表到
分区
单元表的
PySpark
数据加载的性能优化
、
、
、
我们有一个要求,从一个非
分区
的work_db.customer_tbl外部蜂窝表通过
PySpark
从一个
分区
的外部的蜂巢表通过
PySpark
摄取数据,以前是通过hive查询完成的。因此,我们有一个简单的
PySpark
脚本,它使用一个插入查询(与前面使用的单元查询相同)来使用spark.sql()命令摄取数据。但是,我们有一些严重的性能问题,因为我们
在
摄入后试图摄入的表大约有3000
分区
,和每个
分区
大约有4MB的数据,除了最后一个
分区
大
浏览 2
提问于2021-03-25
得票数 0
1
回答
在
Pyspark
中组合DataFrames
、
、
我有一个供应商给了我一个S3桶
上
的多个压缩数据
文件
,我需要一起读取使用
Pyspark
进行分析。如何修改sc.textFile()命令? 另外,如果我加载10个
文件
,我如何引用它们?
在
更广泛的层面上,我将如何调整AMAZON EMR集群
上
的
分区
和内存?每个压缩
文件
的
大小
为3MB或解压缩后的1.3 3MB。谢谢
浏览 0
提问于2020-02-19
得票数 0
3
回答
如何使用AWS Glue减少将镶木地板
文件
写入s3所需的时间
、
、
、
因此,我创建了一个循环,通过每小时
文件
夹(每个
文件
夹155 as )将数据读取到spark df中,对某些类别进行过滤,并将其作为
按
过滤的类别划分的拼图
文件
(s3://<path>/category=<
浏览 0
提问于2020-08-18
得票数 2
2
回答
有效地让partitionBy写入与原始表相同的总
分区
数。
、
我被要求把它作为一个单独的问题发出来,所以这里是: 据我所知,df.partitionBy(COL)将把带有COL值的所有行写入自己的
文件
夹,并且每个
文件
夹(假设行以前通过其他键分布在所有
分区
中)的
文件
数量与整个表中的大致相同如果我有一个包含500个
分区
的大表,并且对一些属性列使用partitionBy(COL),那么我现在有100个
文件
夹,每个
文件
夹都包含500个
文件
(现在非常小)。我想要的是partitionBy(COL)行为,但
文件</e
浏览 0
提问于2018-06-09
得票数 38
回答已采纳
2
回答
星星之火数据(ForeachPartition):将元素之和
、
我试图
在
每个
分区
的火花数据和和元素的划分使用吡咯烷酮。但我无法在被调用的函数"sumByHour“中执行此操作。基本
上
,我无法访问"sumByHour“中的dataframe列。基本
上
,我是
按
“小时”列进行
分区
,并试图根据“小时”
分区
对元素进行求和。预期产量分别为: 6,15,24,0,1,2小时。
在
没有运气的情况下尝试过。from
pyspark
.sql.functions import * from
浏览 4
提问于2022-01-25
得票数 0
回答已采纳
1
回答
如何将小拼图
文件
合并为一个大拼图
文件
?
、
、
、
我有一些
分区
的hive表,它们指向拼图
文件
。现在我为每个
分区
都有很多小的拼图
文件
,每个
文件
的
大小
都在5kb左右,我想把这些小
文件
合并成每个
分区
的一个大
文件
。我如何才能做到这一点,以提高我的蜂巢性能?我已经尝试将
分区
中的所有拼图
文件
读取到
pyspark
dataframe,并将组合后的dataframe重写到相同的
分区
,并删除旧的。但由于某些原因,这对我来说似乎是低
浏览 5
提问于2018-08-16
得票数 0
回答已采纳
1
回答
写入拼花
文件
时能重叠
分区
吗?
、
、
、
、
我有一个非常大的数据,大约2TB的
大小
。有两个列可以对它们进行
分区
:MODULE和DATE,如果我用MODULE对它们进行
分区
,每个模块都可以有相同的日期,例如MODULE A可能有日期,2020-07-01 , 2020-07-02和MODULE我需要先用MODULE对它们进行
分区
,然后再进行聚合和连接,然后再用DATE进行
分区
和存储。我正在使用
pyspark
来编写代码。
在
完成聚合和
按
模块连接之后,我将其附加到一个拼花
文件
中,并将整
浏览 2
提问于2020-07-12
得票数 0
1
回答
如何在使用
PySpark
将数据写入拼图时指定
分区
号
、
我想写一个火花数据,但不是指定为partitionBy,而是numPartitions或每个
分区
的
大小
。
在
PySpark
中有一种简单的方法吗?
浏览 0
提问于2016-05-08
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
day2,NTFS文件系统引导扇区详解——分区表恢复上
在电脑上怎么编辑pdf文件
网友在windows中发现大小超过259GB的dll文件!
怎么在电脑上把PDF文件转换为EXCEL文件?
Kindle可以看PDF文件吗?怎么在Kindle上阅读PDF文件?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券