腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
在
hadoop
中
合并
同一
分区
中
的
多个
文件
的
最佳
选择
?
hadoop
、
hive
、
hdfs
、
hiveql
、
hadoop-partitioning
我
在
event_date上对一个表进行了
分区
,由于某些原因,当我将数据插入到外部表
中
时,有些日期只有一两个
文件
,而有些日期有200
多个
文件
。我认为'merge.tezfiles‘行专门处理插入时
的
文件
合并
。有没有办法以一种干净而简单
的
方式
合并
每个数据
分区
中
的
多个
文件
? 我已经尝试了以下几个日期,分别有
浏览 18
提问于2019-11-12
得票数 2
回答已采纳
3
回答
如何在不使用repartition和copyMerge
的
情况下
合并
spark结果
文件
?
scala
、
hadoop
、
apache-spark
我使用下面的代码:pathToResults目录下有很多
文件
,比如part-0000,part我可以使用FileUtil.copyMerge(),但它真的很慢,它下载所有的
文件
到驱动程序,然后上传到
hadoop
.但是FileUtil.copyMerge()比:如何在不使用repartition和
浏览 0
提问于2015-03-13
得票数 7
回答已采纳
2
回答
如何用Spark高效读取
多个
小拼图
文件
?有CombineParquetInputFormat吗?
apache-spark
、
apache-spark-sql
、
spark-streaming
、
spark-dataframe
、
parquet
Spark生成了
多个
小镶木地板
文件
。如何有效地处理生产者和消费者Spark作业
中
的
少量镶木地板
文件
。
浏览 0
提问于2017-01-25
得票数 0
1
回答
将DataFrame作为文本
文件
加载到HDFS和S3
中
scala
、
hadoop
、
apache-spark
、
dataframe
、
hdfs
我试图使用下面的代码将DataFrame作为文本
文件
加载到HDFS和S3
中
。DataFrame名为finalData。但是
文件
名和我提供
的
不一样,也不是文本格式
的
。正如我提到
的
那样,已经创建了一个具有名称
的
目录。test/File/test_20170918055206.txt/_SUCCESS /user/test/File/test_20170918055206.txt/part-000
浏览 1
提问于2017-09-18
得票数 0
回答已采纳
2
回答
星火
合并
vs HDFS getmerge
hadoop
、
apache-spark
、
hdfs
、
coalesce
我需要在一个
文件
中
获得结果,因此有两种
合并
结果
的
方法: 哪一种最有效率,最快捷?是否有其他方法将HDFS
中
的
文件
合并
(如"
浏览 8
提问于2015-11-11
得票数 2
1
回答
使用单元连接
合并
所有
分区
bash
、
hadoop
、
hive
、
hdfs
、
bigdata
我有一个hive外部表,它是
在
源系统上
分区
的
,这意味着数据将来自
多个
源系统。/app/
hadoop
/MyProject/SchemaName/TableName/PartitionColumn=SoruceSystemN 而进入SourceSystem
文件
夹
的
所有数据都是流数据,因此我们
在
每个源系统下获得了大量
的
文件
:)。我正在考虑每天
合并
浏览 2
提问于2018-07-20
得票数 3
3
回答
如何将csv
文件
写成一个
文件
pyspark
我使用方法编写csv
文件
。但是它将生成一个包含
多个
部件
文件
的
文件
。这不是我想要
的
,我只需要一个
文件
。我还发现使用scala强制
在
一个
分区
上计算所有内容,然后得到一个
文件
。
中
实现这一点
在
第二篇文章
中
,还提到一个
Hadoop
function可以将
多个
文件
合并
到一个
文件
浏览 2
提问于2016-04-12
得票数 12
1
回答
Apache Spark
中
的
RDD和
分区
apache-spark
因此,
在
Spark
中
,当一个应用程序启动时,就会创建一个包含该应用程序
的
数据集(例如,WordCount
的
words数据集)
的
RDD。到目前为止,我所理解
的
是,RDD是WordCount
中
这些单词
的
集合,以及对这些数据集所做
的
操作(例如,map、reduceByKey等)。然而,afaik,Spark也有HadoopPartition (或一般
的
:
分区
),它由每个执行器从HDFS读取。我相信驱动程序
浏览 1
提问于2016-04-11
得票数 0
1
回答
Hadoop
reduce函数
的
键输入是否完整?
hadoop
、
mapreduce
我正在寻找一个问题
的
解决方案,该问题涉及从
多个
文件
中
读取键控数据。
在
一个映射步骤
中
,我需要在
同一
时间
同一
位置
的
某个特定键
的
所有值。我
在
怀特
的
书中看到了关于"the shuffle“
的
讨论,我不禁想知道,当你从
合并
中
走出来时,reducer
的
输入是按键排序
的
,如果一个键
的</e
浏览 0
提问于2011-11-22
得票数 0
回答已采纳
1
回答
hadoop
编码标准
hadoop
、
hive
、
hbase
、
apache-pig
我是否可以参考任何解释不同
hadoop
应用标准
的
文档,如HIVE、HBase、PiG、sqoop、Oozie。我
的
意思是,在编写代码时,应该遵循标准/
最佳
实践。例如,我知道
的
一个标准是,
在
Hadoop
中
,我们不应该使用大量
的
小
文件
,而应该
选择
少量
的
大
文件
(通过避免
在
单元表中进行不必要
的
分区
)。 我正在
浏览 3
提问于2016-02-17
得票数 0
2
回答
如何在星火中按对
合并
分区
?
apache-spark
我有一组点(每个点都是文本
文件
中
的
一行),我将其分布
在
Spark
的
分区
之间。 我使用mapPartitions操作,它会使我
在
每个
分区
中
得到一半
的
点数(并不是真正重要
的
原因和方式)。现在,我想对
分区
进行
合并
,所以
分区
#1和#2将是
合并
的
分区
,
分区
#3和#4将是第二个
合
浏览 1
提问于2015-08-27
得票数 0
回答已采纳
1
回答
Hadoop
项目的存储库组织
mercurial
、
repository
、
hadoop
、
organization
我正在开始一个新
的
Hadoop
项目,该项目将有
多个
hadoop
作业(因此有
多个
jar
文件
)。使用mercurial进行源代码控制,我想知道组织存储库结构
的
最佳
方式是什么?每个作业应该放在单独
的
repo
中
,还是将它们放在
同一
个repo
中
,但分解到
文件
夹中会更有效率?
浏览 2
提问于2010-06-02
得票数 6
回答已采纳
2
回答
如何将火花流应用程序
的
输出写入单个
文件
apache-spark
、
apache-spark-sql
、
streaming
、
spark-streaming
、
csv-write-stream
我正在使用星火流读取Kafka
的
数据,并将其传递到py
文件
进行预测。它返回预测以及原始数据。它将原始数据与其预测保存到
文件
中
,但是它正在为每个RDD创建一个
文件
。我需要一个单一
的
文件
,包括收集
的
所有数据,直到我停止程序被保存到一个
文件
。 我尝试过writeStream,它甚至没有创建一个
文件
。我尝试过使用附加
文件
将其保存到parquet,但它会创建
多个
文件
,即每个
浏览 5
提问于2019-08-19
得票数 2
回答已采纳
3
回答
洗牌阶段和组合阶段有什么区别?
hadoop
、
mapreduce
、
combiners
、
partitioner
顺便说一句,这是我对MapReduce工作
的
想法2.We will have n outputs parts, where n is the number基本上是对
的
?我
的
意思是,我找到了一些消息来源说,组合器是洗牌阶段,它基本上是按每个记录按键分组.
浏览 3
提问于2016-10-06
得票数 2
2
回答
当
文件
大于块大小时,如何减少蜂箱
中
映射器
的
数量?
hive
、
mapper
伙计们,我
在
单元中有一个表,它有720个
分区
,每个
分区
有400
多个
文件
,
文件
的
平均大小是1G。409个
文件
。,很多文档
在
文件
很小
的
时候解决了这个问题。mapreduce.input.fileinputformat.split.minsize.per.rack=5000000000; set mapreduce.input.fileinputformat.split.minsize.per.node=
浏览 4
提问于2017-04-28
得票数 3
回答已采纳
2
回答
combineInputFormat是如何在蜂巢
中
工作
的
?
apache
、
hive
、
combiners
我有一个具有以下属性
的
Hive表 表参数: totalSize 170774650
在
我<
浏览 3
提问于2017-04-09
得票数 1
回答已采纳
2
回答
hadoop
/HDFS:是否可以从
多个
进程写入
同一
文件
?
hadoop
、
hdfs
f.e.创建20字节
的
文件
。第二个从5到9我需要这个并行创建一个大
文件
使用我
的
MapReduce。 谢谢。附注:也许它还没有实现,但它通常是可能
的
-请告诉我应该在哪里挖掘。
浏览 4
提问于2012-08-09
得票数 0
1
回答
在
hadoop
中
同步
多个
map reduce作业
map
、
hadoop
、
reduce
、
synchronize
我有一个可以同时运行
多个
作业
的
用例。所有作业
的
输出都必须与HDFS
中
没有重复项
的
公共主
文件
(包含键值对)
合并
。我不确定如何避免在这种情况下可能突然出现
的
竞争条件。例如,作业1和作业2同时向主
文件
写入相同
的
值,从而导致重复。感谢你在这方面的帮助。
浏览 0
提问于2012-11-01
得票数 0
1
回答
Sqoop
合并
工具
在
单个
文件
中生成输出
apache
、
hadoop
、
hdfs
、
sqoop
、
parquet
目前,我正在执行以下命令 除了merge
在
多个
部件
文件
中生成输出外,一切都工作得很好,因为这是
hadoop
中
的
mapreduce任务,它使用
多个
还原器。部件
文件
是拼板
文件
,我想要创建单个
文件
,因为相同
的
文件
将被输入到我
的
下一个进程,下一个进程是
在
同一
个提取
的
文件
浏览 2
提问于2018-06-26
得票数 0
1
回答
将
多个
客户端数据加载到
Hadoop
的
最佳
实践
sql-server
、
hadoop
、
hive
、
sqoop
、
cloudera-quickstart-vm
我们正在使用Cloudera
在
Hadoop
框架上创建POC。我们希望将
多个
客户端
的
数据加载到Hive表
中
。 到目前为止,我们对Server上
的
每个客户端都有单独
的
数据库。
Hadoop
将用于OLAP。我们有一些主维度表,它们对每个客户端都是相同
的
。所有客户端数据库都有完全相同
的
架构。这些表具有相同
的
主键值。到目前为止,这是很好
的
,因为我们有单独
的
客户数据库。现在,我
浏览 4
提问于2016-01-27
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券