腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1917)
视频
沙龙
1
回答
估计
要从
Spark
写入
HDFS
的
零件
文件
的
数量
apache-spark
、
apache-spark-sql
、
rdd
我想在
HDFS
中写一个Parquet.snappy格式
的
火花数据帧。当前,即使表格中
的
记录数较少,它也会创建默认
的
200个
零件
文件
。是任何可用
的
公式,它提供了大约
数量
的
零件
文件
写入
HDFS
中,因此读取速度可以更快。 理想情况下,
零件
文件
大小应在50-200 MB之间。我知道重分区和合并功能可以减少/增加
零件</
浏览 28
提问于2019-09-27
得票数 0
1
回答
查询
Spark
上
的
Hive以获得最高性能
的
正确方法是什么?
apache-spark
、
hive
、
pyspark
、
hadoop-yarn
、
parquet
我在Hive中有一个相当大
的
表(约130M条记录,180列),我正尝试使用
Spark
将其打包为拼图
文件
。我使用默认
的
EMR集群配置,6* r3.xlarge实例来提交我用Python编写
的
spark
应用程序。然后我在YARN上以集群模式运行它,通常会给驱动程序分配少量内存(几gb),剩下
的
内存给执行器。:
spark
-submit --master yarn --deploy-mode cluster --num-executors 5 --driv
浏览 0
提问于2017-03-21
得票数 2
2
回答
如何控制
Spark
job在
写入
时创建
的
输出部品
文件
的
数量
?
apache-spark
、
hive
、
apache-spark-sql
、
parquet
我有几个
Spark
作业,每天处理数千个
文件
。
文件
大小可能从MB到GB不等。完成工作后,我通常使用以下代码进行保存dataFrame.write.format("orc").save("/path/in/
hdfs
") //storing as ORC file as
浏览 4
提问于2015-07-06
得票数 2
回答已采纳
2
回答
在
HDFS
中处理总大小为100 in
的
多个小
文件
apache-spark
、
hdfs
我
的
项目中有一个使用.txt处理多个PySpark消息
文件
的
要求。
文件
从本地dir移动到
HDFS
路径(
hdfs
://messageDir/..)使用批处理和每批处理,我可以看到几千个.txt
文件
,它们
的
总大小约为100 is。几乎所有的
文件
都小于1MB。我可以知道
HDFS
如何存储这些
文件
并执行拆分吗?因为每个
文件
都小于1MB(小于64/128
浏览 2
提问于2018-10-21
得票数 0
回答已采纳
1
回答
为什么
Spark
总是将相同
数量
的
文件
写入
HDFS
?
apache-spark-sql
、
hdfs
、
spark-streaming
我有一个用Scala编写
的
Spark
流媒体应用程序,在CDH中运行。应用程序从Kafka读取数据并将数据
写入
HDFS
。在将数据
写入
HDFS
之前,我执行了partitionBy,因此数据是分区
写入
的
。每个分区在
写入
时都会得到3个
文件
。我还使用coalesce来控制数据
的
分区
数量
。我
的
预期是,由coalesce命令设置
的
分区
数量
将设
浏览 0
提问于2018-09-18
得票数 1
1
回答
读取时,初始分区是如何在
spark
中发生
的
?
apache-spark
、
distributed-computing
从大csv
文件
读取数据时,数据
的
初始partitions发生在什么基础上?有没有人能分享,是怎么做到
的
?
浏览 8
提问于2022-02-14
得票数 1
回答已采纳
2
回答
EMR
Spark
作业-
HDFS
和EBS存储
的
使用情况
amazon-emr
Spark
on EMR是否将亚马逊S3
的
输入数据分发到底层
HDFS
? 也连接到节点
的
EBS卷
的
用途是什么?
浏览 4
提问于2020-02-26
得票数 0
1
回答
数据集中
的
拆分数超过了数据集拆分限制,Dremio+Hive+
Spark
apache-spark
、
hadoop
、
hive
、
dremio
我们有一个由Hadoop+Hive+
Spark
+Dremio组成
的
堆栈,由于
Spark
为单个Hive分区(取决于工作进程)
写入
许多
HDFS
文件
,所以在查询表时,由于
HDFS
文件
的
数量
超过了限制,Dremio会失败,有没有办法解决这个问题,而不必手动在
spark
中设置更少
的
工作进程?(我们不想失去
spark
分布式性能和好处)。
浏览 17
提问于2019-11-06
得票数 0
回答已采纳
3
回答
Spark
在加载Hive表时创建了多少个分区
apache-spark
、
hadoop
、
pyspark
、
apache-spark-sql
即使是Hive表或
HDFS
文件
,当
Spark
读取数据并创建数据帧时,我认为RDD/dataframe中
的
分区
数量
将等于
HDFS
中
的
partfile
数量
。但是,当我使用配置单元外部表进行测试时,我可以看到这个
数量
与数据帧中分区
的
部分
文件
数量
.The
数量
119不同。该表是一个Hive分区表,其中包含150个部分
文件
,最小
文件</em
浏览 69
提问于2020-04-02
得票数 3
2
回答
将拼图输出
文件
以固定大小保存在
spark
中
apache-spark
、
apache-spark-sql
我有160 in
的
数据,分区在DATE列上,并以拼图
文件
格式存储在
spark
1.6.0上。我需要在每个固定大小
的
分区中存储相同大小
的
输出拼图
文件
,例如每个分区大小为100MB。parquet.block.size",blockSize) 上面的配置不起作用,它正在使用默认分区数创建多个
文件
,而不是100
浏览 4
提问于2018-04-14
得票数 5
1
回答
在hadoop中保存到本地目录时,是否可以避免使用-getmerge函数时出现多个头部?
python
、
hadoop
、
apache-spark-sql
、
hdfs
我有一个python脚本,它将
spark
数据帧作为csv保存到
HDFS
。df.write.format('com.databricks.
spark
.csv').save(filename, header='true', sep=',') 然后,我需要组合
HDFS
中存在
的
零件
.csv
文件
,然后将它们作为单个.csv
文件
下载到本地位置。我现在面临
的
问题是,当组合
零件</e
浏览 36
提问于2020-07-03
得票数 0
1
回答
如何将rdd数据保存到本地
文件
而不是println
scala
、
rdd
userid,tags)=>println(s"${userid}${"\t"}${tags.topicInterests.map(_.id).mkString(",")}")} 现在,我想要将细节保存到本地
文件
浏览 0
提问于2018-06-08
得票数 1
2
回答
如何在使用
spark
数据帧
写入
时自动计算numRepartition
apache-spark
、
hadoop
、
hive
当我尝试将dataframe
写入
Hive拼接分区表时它会在
HDFS
中创建大量
的
块,每个块只有很小
的
数据量。我理解它是如何进行
的
,因为每个
spark
子任务都会创建一个块,然后向其中
写入
数据。 我也理解,块
的
<em
浏览 2
提问于2018-08-13
得票数 1
1
回答
以指定
的
Linux用户身份运行
Spark
executors
apache-spark
、
nfs
我有一个包含5个节点
的
spark
独立集群。所有节点都通过nfs挂载了相同
的
卷。这些挂载中
的
文件
具有特定
的
linux
文件
权限。当我以用户x(在所有节点上都可用,并且在所有节点上具有相同
的
uid)
的
身份
spark
提交作业时,我希望
spark
executors也以用户x
的
身份运行,以便作业只能访问用户x有权访问
的
文件
。我没有Kerberos,也没有<
浏览 0
提问于2020-02-22
得票数 1
1
回答
如何合并
SPARK
data frame创建
的
文件
夹中
的
所有
零件
文件
并在scala中重命名为
文件
夹名
scala
、
apache-spark
、
hdfs
、
spark-dataframe
、
hadoop2
嗨,我有我
的
火花数据框
的
输出,它创建
文件
夹结构和创建所以可能
的
零件
文件
。现在,我必须合并
文件
夹中
的
所有
零件
文件
,并将其中一个
文件
重命名为
文件
夹路径名。/output")
hdfs
:///user/zeppelin/FinancialLi
浏览 2
提问于2017-10-18
得票数 2
2
回答
如何在
HDFS
中只保存非空
的
减速器输出
hadoop
、
reduce
、
hdfs
在我
的
应用程序中,reducer将所有的
零件
文件
保存在
HDFS
中,但我希望只有reducer会
写入
尺寸不是0bytes.Please
的
零件
文件
,让我知道如何定义它。
浏览 2
提问于2011-05-26
得票数 4
1
回答
GCP Dataproc -来自GCS
的
慢读取速度
apache-spark
、
google-cloud-platform
、
google-cloud-dataproc
作业
的
输入是一个
文件
夹,其中有200个部件
文件
。每个部件
文件
大约有1.2GB大。属性parquet.block.size设置为128 MB,这意味着每个部件
文件
将在作业期间读取10次。我确实理解,阅读一个大
的
地板
文件
的
分裂
浏览 1
提问于2018-11-12
得票数 2
1
回答
Spark
Streaming应用应在连续批量失败后停止
apache-spark
、
spark-streaming
我有一个带有
Spark
2.3.1
的
DStream流媒体应用程序。其中我正在从Kafka读取数据并
写入
Kerberized
HDFS
,但随机地我
的
批处理开始失败,同时
写入
HDFS
并异常显示kerberos相关
的
错误,但我
的
spark
应用程序继续运行,所以我不知道我
的
批处理失败我
的
问题是,有什么方法可以限制连续批处理故障转移
的
数量
吗?建议是否存在一
浏览 16
提问于2019-04-12
得票数 0
2
回答
部件
文件
的
大小对
Spark
性能是否起作用?
apache-spark
、
apache-spark-sql
、
query-performance
、
spark-avro
我试图查询包含大量部件
文件
(avro)
的
hdfs
。最近,我们进行了一项减少并行性
的
更改,因此部件
文件
的
大小增加了,每个部件
文件
的
大小在750 GB到2GB之间(我们使用火花流在10分钟内将数据
写入
hdfs
,因此这些
文件
的
大小取决于我们从上游处理
的
数据量部件
文件
的
数量
将在500个左右。我想知道这些部件
文件
浏览 1
提问于2018-11-29
得票数 0
回答已采纳
1
回答
spark
结构化流式处理生成.c000.csv
文件
apache-spark
、
hive
、
apache-kafka
、
spark-structured-streaming
我正在尝试从kafka主题获取数据,并将其推送到
hdfs
位置。我正面临着以下问题。 part-00001-abdda104-
浏览 2
提问于2019-01-15
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
“读字节聊大数据”进入大数据领域的学习路线是什么?
关于Hadoop,你该知道的
Hadoop及Spark 分布式HA运行环境搭建
如何从根源上解决 HDFS 小文件问题
Spark 2.4 原生支持了avro,别再引用第三方库了
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券