在hadoop中合并同一分区中的多个文件的最佳选择？

文章/答案/技术大牛

发布

3回答

hadoop、hive、hdfs、hiveql、hadoop-partitioning

我在event_date上对一个表进行了分区，由于某些原因，当我将数据插入到外部表中时，有些日期只有一两个文件，而有些日期有200多个文件。我认为'merge.tezfiles‘行专门处理插入时的文件合并。有没有办法以一种干净而简单的方式合并每个数据分区中的多个文件？我已经尝试了以下几个日期，分别有

浏览 18提问于2019-11-12得票数 2

回答已采纳

3回答

如何在不使用repartition和copyMerge的情况下合并spark结果文件？

scala、hadoop、apache-spark

我使用下面的代码：pathToResults目录下有很多文件，比如part-0000，part我可以使用FileUtil.copyMerge()，但它真的很慢，它下载所有的文件到驱动程序，然后上传到hadoop.但是FileUtil.copyMerge()比：如何在不使用repartition和

浏览 0提问于2015-03-13得票数 7

回答已采纳

2回答

如何用Spark高效读取多个小拼图文件？有CombineParquetInputFormat吗？

apache-spark、apache-spark-sql、spark-streaming、spark-dataframe、parquet

Spark生成了多个小镶木地板文件。如何有效地处理生产者和消费者Spark作业中的少量镶木地板文件。

浏览 0提问于2017-01-25得票数 0

1回答

将DataFrame作为文本文件加载到HDFS和S3中

scala、hadoop、apache-spark、dataframe、hdfs

我试图使用下面的代码将DataFrame作为文本文件加载到HDFS和S3中。DataFrame名为finalData。但是文件名和我提供的不一样，也不是文本格式的。正如我提到的那样，已经创建了一个具有名称的目录。test/File/test_20170918055206.txt/_SUCCESS /user/test/File/test_20170918055206.txt/part-000

浏览 1提问于2017-09-18得票数 0

回答已采纳

2回答

星火合并vs HDFS getmerge

hadoop、apache-spark、hdfs、coalesce

我需要在一个文件中获得结果，因此有两种合并结果的方法：哪一种最有效率，最快捷？是否有其他方法将HDFS中的文件合并(如"

浏览 8提问于2015-11-11得票数 2

1回答

使用单元连接合并所有分区

bash、hadoop、hive、hdfs、bigdata

我有一个hive外部表，它是在源系统上分区的，这意味着数据将来自多个源系统。/app/hadoop/MyProject/SchemaName/TableName/PartitionColumn=SoruceSystemN 而进入SourceSystem文件夹的所有数据都是流数据，因此我们在每个源系统下获得了大量的文件:)。我正在考虑每天合并

浏览 2提问于2018-07-20得票数 3

3回答

如何将csv文件写成一个文件

pyspark

我使用方法编写csv文件。但是它将生成一个包含多个部件文件的文件。这不是我想要的，我只需要一个文件。我还发现使用scala强制在一个分区上计算所有内容，然后得到一个文件。中实现这一点在第二篇文章中，还提到一个Hadoop function可以将多个文件合并到一个文件

浏览 2提问于2016-04-12得票数 12

1回答

因此，在Spark中，当一个应用程序启动时，就会创建一个包含该应用程序的数据集(例如，WordCount的words数据集)的RDD。到目前为止，我所理解的是，RDD是WordCount中这些单词的集合，以及对这些数据集所做的操作(例如，map、reduceByKey等)。然而，afaik，Spark也有HadoopPartition (或一般的:分区)，它由每个执行器从HDFS读取。我相信驱动程序

浏览 1提问于2016-04-11得票数 0

1回答

Hadoop reduce函数的键输入是否完整？

hadoop、mapreduce

我正在寻找一个问题的解决方案，该问题涉及从多个文件中读取键控数据。在一个映射步骤中，我需要在同一时间同一位置的某个特定键的所有值。我在怀特的书中看到了关于"the shuffle“的讨论，我不禁想知道，当你从合并中走出来时，reducer的输入是按键排序的，如果一个键的</e

浏览 0提问于2011-11-22得票数 0

回答已采纳

1回答

hadoop编码标准

hadoop、hive、hbase、apache-pig

我是否可以参考任何解释不同hadoop应用标准的文档，如HIVE、HBase、PiG、sqoop、Oozie。我的意思是，在编写代码时，应该遵循标准/最佳实践。例如，我知道的一个标准是，在Hadoop中，我们不应该使用大量的小文件，而应该选择少量的大文件(通过避免在单元表中进行不必要的分区)。我正在

浏览 3提问于2016-02-17得票数 0

2回答

如何在星火中按对合并分区？

apache-spark

我有一组点(每个点都是文本文件中的一行)，我将其分布在Spark的分区之间。我使用mapPartitions操作，它会使我在每个分区中得到一半的点数(并不是真正重要的原因和方式)。现在，我想对分区进行合并，所以分区#1和#2将是合并的分区，分区#3和#4将是第二个合

浏览 1提问于2015-08-27得票数 0

回答已采纳

1回答

Hadoop项目的存储库组织

mercurial、repository、hadoop、organization

我正在开始一个新的Hadoop项目，该项目将有多个hadoop作业(因此有多个jar文件)。使用mercurial进行源代码控制，我想知道组织存储库结构的最佳方式是什么？每个作业应该放在单独的repo中，还是将它们放在同一个repo中，但分解到文件夹中会更有效率？

浏览 2提问于2010-06-02得票数 6

回答已采纳

2回答

如何将火花流应用程序的输出写入单个文件

apache-spark、apache-spark-sql、streaming、spark-streaming、csv-write-stream

我正在使用星火流读取Kafka的数据，并将其传递到py文件进行预测。它返回预测以及原始数据。它将原始数据与其预测保存到文件中，但是它正在为每个RDD创建一个文件。我需要一个单一的文件，包括收集的所有数据，直到我停止程序被保存到一个文件。我尝试过writeStream，它甚至没有创建一个文件。我尝试过使用附加文件将其保存到parquet，但它会创建多个文件，即每个

浏览 5提问于2019-08-19得票数 2

回答已采纳

3回答

洗牌阶段和组合阶段有什么区别？

hadoop、mapreduce、combiners、partitioner

顺便说一句，这是我对MapReduce工作的想法2.We will have n outputs parts, where n is the number基本上是对的？我的意思是，我找到了一些消息来源说，组合器是洗牌阶段，它基本上是按每个记录按键分组.

浏览 3提问于2016-10-06得票数 2

2回答

当文件大于块大小时，如何减少蜂箱中映射器的数量？

hive、mapper

伙计们，我在单元中有一个表，它有720个分区，每个分区有400多个文件，文件的平均大小是1G。409个文件。，很多文档在文件很小的时候解决了这个问题。mapreduce.input.fileinputformat.split.minsize.per.rack=5000000000; set mapreduce.input.fileinputformat.split.minsize.per.node=

浏览 4提问于2017-04-28得票数 3

回答已采纳

2回答

combineInputFormat是如何在蜂巢中工作的？

apache、hive、combiners

我有一个具有以下属性的Hive表表参数： totalSize 170774650 在我<

浏览 3提问于2017-04-09得票数 1

回答已采纳

2回答

hadoop/HDFS:是否可以从多个进程写入同一文件？

hadoop、hdfs

f.e.创建20字节的文件。第二个从5到9我需要这个并行创建一个大文件使用我的MapReduce。谢谢。附注:也许它还没有实现，但它通常是可能的-请告诉我应该在哪里挖掘。

浏览 4提问于2012-08-09得票数 0

1回答

在hadoop中同步多个map reduce作业

map、hadoop、reduce、synchronize

我有一个可以同时运行多个作业的用例。所有作业的输出都必须与HDFS中没有重复项的公共主文件(包含键值对)合并。我不确定如何避免在这种情况下可能突然出现的竞争条件。例如，作业1和作业2同时向主文件写入相同的值，从而导致重复。感谢你在这方面的帮助。

浏览 0提问于2012-11-01得票数 0

1回答

Sqoop合并工具在单个文件中生成输出

apache、hadoop、hdfs、sqoop、parquet

目前，我正在执行以下命令除了merge在多个部件文件中生成输出外，一切都工作得很好，因为这是hadoop中的mapreduce任务，它使用多个还原器。部件文件是拼板文件，我想要创建单个文件，因为相同的文件将被输入到我的下一个进程，下一个进程是在同一个提取的文件

浏览 2提问于2018-06-26得票数 0

1回答

将多个客户端数据加载到Hadoop的最佳实践

sql-server、hadoop、hive、sqoop、cloudera-quickstart-vm

我们正在使用Cloudera在Hadoop框架上创建POC。我们希望将多个客户端的数据加载到Hive表中。到目前为止，我们对Server上的每个客户端都有单独的数据库。Hadoop将用于OLAP。我们有一些主维度表，它们对每个客户端都是相同的。所有客户端数据库都有完全相同的架构。这些表具有相同的主键值。到目前为止，这是很好的，因为我们有单独的客户数据库。现在，我

浏览 4提问于2016-01-27得票数 2

回答已采纳

点击加载更多