腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
hdfs
中
具有
相同
大小
文件
的
火花
写入
分区
apache-spark
、
apache-spark-sql
我在
hdfs
中有一个很大
的
表,每天有数百万行。我
的
目标是
写入
相同
大小
的
文件
,强制在单个
文件
中
写入
最大行数。这就是我正在做
的
事情(spark 2.3.1)。.format("orc") .mode(SaveMode.Overwrite) .save(s&q
浏览 9
提问于2019-10-17
得票数 2
2
回答
在
HDFS
中
处理总
大小
为100 in
的
多个小
文件
apache-spark
、
hdfs
文件
从本地dir移动到
HDFS
路径(
hdfs
://messageDir/..)使用批处理和每批处理,我可以看到几千个.txt
文件
,它们
的
总
大小
约为100 is。几乎所有的
文件
都小于1MB。我可以知道
HDFS
如何存储这些
文件
并执行拆分吗?因为每个
文件
都小于1MB(小于64/128 MB
的
HDFS
块
大小
),所以我认为不会发生任何
浏览 2
提问于2018-10-21
得票数 0
回答已采纳
1
回答
估计要从Spark
写入
HDFS
的
零件
文件
的
数量
apache-spark
、
apache-spark-sql
、
rdd
我想在
HDFS
中
写一个Parquet.snappy格式
的
火花
数据帧。当前,即使表格
中
的
记录数较少,它也会创建默认
的
200个零件
文件
。是任何可用
的
公式,它提供了大约数量
的
零件
文件
写入
HDFS
中
,因此读取速度可以更快。 理想情况下,零件
文件
大小
应在50-200 MB之间。我知道重
分区
和合并功能可以
浏览 28
提问于2019-09-27
得票数 0
5
回答
如何在
火花
中将拼花
文件
分割成多个
分区
?
scala
、
apache-spark
、
parquet
因此,我只有一个拼花
文件
,我正在读取与Spark (使用SQL材料),我希望它被处理100个
分区
。我尝试将spark.default.parallelism设置为100,我们还尝试将拼板
的
压缩更改为none (从gzip)。不管我们做什么,
火花
作业
的
第一阶段只有一个
分区
(一旦发生洗牌,就会被重新划分为100,很明显,事情要快得多)。 现在,根据一些消息来源(如以下所示),拼花应该是可分割
的
(即使使用gzip!)我使用
的
是Spark1.0.0,显然spa
浏览 5
提问于2014-11-28
得票数 19
回答已采纳
2
回答
拼花
文件
夹下
的
一个拼花
文件
是一个
分区
吗?
apache-spark
、
pyspark
、
apache-spark-sql
、
parquet
、
partition
我将我
的
数据存储为拼花格式在检查
HDFS
时,我可以看到在parquet目录/my/path下有10部分-xxx.snappy.parquet
文件
我
的
问题是:一个部分-xxx.snappy.parquet
文件
是否对应于我
的
dataframe
分区
?
浏览 3
提问于2020-03-29
得票数 0
回答已采纳
1
回答
文件
写入
的
火花
分区
非常慢。
hadoop
、
apache-spark
、
hdfs
、
parquet
、
hadoop-partitioning
当使用Spark向
HDFS
写入
文件
时,当不使用
分区
时,这是相当快
的
。相反,当我使用
分区
写入
文件
时,
写入
延迟增加了24因子。你们
中</e
浏览 4
提问于2016-04-01
得票数 3
2
回答
Parquet和
分区
的
星火DataFrames
apache-spark
、
apache-spark-sql
、
parquet
我还没有找到关于这个主题
的
很多信息,但让我们说,我们使用一个数据读取在一个拼花
文件
,即10个块
火花
将自然创建10个
分区
。但是,当dataframe读取
文件
来处理它时,它不是要处理一个大
的
数据与
分区
比率吗?因为如果它正在处理未压缩
的
文件
,块
大小
就会大得多,这意味着
分区
也会更大。1GBPAR=5个块=5个
分区
,这些
分区
可能被解压到5GB,使其成为25个块/2
浏览 2
提问于2015-09-15
得票数 7
回答已采纳
4
回答
火花
分区
(Ing)如何处理
HDFS
中
的
文件
?
apache-spark
、
hdfs
我正在使用
HDFS
在集群上使用Apache。据我所知,
HDFS
正在数据节点上分发
文件
。因此,如果在
文件
系统上放置一个"file.txt“,那么它将被分割成
分区
。现在我给你打电话来自阿帕奇·斯帕克。rdd现在是否自动与
文件
系统上
的
"file.txt“
分区
<em
浏览 1
提问于2015-03-12
得票数 64
回答已采纳
2
回答
每个
分区
中
对象数
的
火花
合并
apache-spark
我们开始在我们
的
团队
中
尝试
火花
。在我们减少工作在
火花
,我们想写结果到S3,但我们想避免收集
火花
的
结果。目前,我们正在将这些
文件
写入
RDD
的
Spark,但是这导致了大量
的
小
文件
。我们希望能够将数据聚合到由
写入
文件
的
对象数量所划分
的
几个
文件
中
。我
的
思想过程是让每个
分区</
浏览 2
提问于2018-12-18
得票数 1
回答已采纳
1
回答
拼花
分区
和
HDFS
文件
大小
hdfs
、
avro
、
parquet
我
的
数据是相对较小
的
Avro记录形式,用Parquet
文件
编写(平均< 1mb)。我使用目录层次结构对数据进行了
分区
。我想知道在Avro记录上“构建”
分区
并积累更大
的
文件
是否更好.但是,我认为
分区
Parquet
文件
也会“映射”到
HDFS
分区
文件
。 最好
的
办法是什么?编辑(根据评论
浏览 5
提问于2016-08-22
得票数 0
2
回答
阅读Kafka
的
信息并
写入
HDFS
apache-spark
、
hadoop
、
apache-kafka
我正在寻找从Kafka读取消息
的
最佳方法(每天大约100 B),阅读了我需要对数据进行操作并将其
写入
HDFS
的
消息。如果我需要以最好
的
性能完成这个任务,那么从Kafka读取消息并将
文件
写入
HDFS
的
最佳方法是什么? 我是否需要考虑使用像斯派克这样
的
解决方案?
浏览 0
提问于2018-05-14
得票数 2
14
回答
覆盖
火花
数据
写入
方法
中
的
特定
分区
apache-spark
、
apache-spark-sql
我想要覆盖特定
的
分区
,而不是在
火花
中
的
所有
分区
。我正在尝试以下命令:其中df是dataframe,
具有
要覆盖
的
增量数据
hdfs
-基路径包含主数据。 当我尝试上述命令时,它将删除所有
分区
浏览 62
提问于2016-07-20
得票数 101
回答已采纳
1
回答
星星之火如何通过标签对
分区
和
分区
进行混合
scala
、
apache-spark
我正在从
HDFS
中
读取一组10,000个10,000个10,000个TB累积
大小
的
拼板
文件
,并使用以下代码以
分区
方式将其
写入
HDFS
我在用 spark.sql
浏览 2
提问于2021-03-25
得票数 2
回答已采纳
1
回答
Hive表要求对每个新
分区
进行“修复”,同时使用pyspark插入拼花
文件
。
apache-spark
、
pyspark
、
hive
、
apache-spark-sql
、
parquet
我有这样
的
火花
:sparkConf.set("hive.exec.dynamic.partition", "true")我使用星火上下文将拼花
文件
<e
浏览 1
提问于2021-08-17
得票数 1
2
回答
处理Spark流rdd并存储到单个
HDFS
文件
apache-spark
、
hive
、
hdfs
、
spark-streaming
我正在使用卡夫卡
火花
流获得流数据。 runConfigParser是一种JAVA方法,它解析一个
文件
并生成一个输出,我必须将其保存在
HDFS
中
。因此,多个节点将处理RDD并将输出
写入
单个
HDFS
文件
。因为我想把它装进蜂巢里。我是否应该输出runConfigParser
的
结果并使用sc.par
浏览 5
提问于2015-07-28
得票数 2
2
回答
partitionBy在使用S3保存数据集时花费
的
时间太长
python
、
apache-spark
、
amazon-s3
、
pyspark
、
amazon-emr
我在日期列上进行
分区
。星火作业需要超过一个小时才能执行。如果我在没有partitionBy
的
情况下运行代码,只需3-4个薄荷糖即可。有人能帮我调一下调子吗?
浏览 0
提问于2019-06-07
得票数 0
1
回答
自定义路径到S3
的
火花
写入
压缩CSV
scala
、
apache-spark
我试图使用用Scala编写
的
Spark向S3简单地编写一个CSV: 在这里我注意到两件奇怪<e
浏览 3
提问于2020-10-20
得票数 0
1
回答
拼图
文件
:达到最小容量
的
最佳
文件
数量是多少
apache-spark
、
parquet
我用spark写了一个数据帧到一个拼图
文件
中
,这个
文件
在
HDFS
上有100个子目录(每个子目录包含一个
文件
)。此
文件
大小
为100 has。当我将数据帧重新
分区
到10个
分区
并将其
写入
HDFS
时,输出拼接
文件
的
大小
增加到大约200 of。为什么会发生这种情况?
写入
拼图
文件
时,最佳
分区
数是多少?我<
浏览 16
提问于2019-06-17
得票数 0
2
回答
如何对星火流生成
的
分区
拼花
文件
进行适当
的
内务管理
apache-spark
、
spark-streaming
、
spark-structured-streaming
我
的
火花
结构化流作业不断生成拼花
文件
,我想在过期后删除(假设在30天后)。我存储
分区
键为cron 3339/I 8601
中
事件日期
的
分区
数据,以便在
HDFS
级别上基于cron作业(根据字符串比较删除所有带有
分区
键
的
文件
夹< oldestAllowedAge )轻松地进行内务管理但是,由于我引入了Spark流,Spark将元数据
写入
到拟
写入
数据本身旁
浏览 6
提问于2019-04-11
得票数 4
回答已采纳
2
回答
写入
HDFS
或S3时是否锁定
文件
?
apache-spark
、
apache-spark-sql
我有一个S3位置,目录结构如下,上面创建了一个Hive表:假设我有一个Spark程序,它使用下面的代码行将数据
写入
上面的表位置,跨越多个
分区
: Df.write.partitionBy("orderdate").parquet("s3://<Mybucket>/<Table Name>/")
浏览 0
提问于2018-03-19
得票数 11
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
技术分享:大数据知识体系
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
而人工智能是否可以成为科技界的先驱呢?
EB 级 HDFS 集群磁带存储资源池的建设实践
技术分享 大数据知识体系
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券