一个映射器类中的多个输入文件-Hadoop - 腾讯云开发者社区

、、

当我从一个属性为date的文件向表中插入数据时，只产生了一个映射器。但是，当我从这个新表插入到另一个表中时，这一次将日期属性转换为年、月和日属性，就产生了多个映射器。这是什么原因呢？

浏览 20提问于2019-04-26得票数 0

1回答

在Hadoop环境中，STDIN还是文件作为映射器输入？

、、

但是，在Hadoop环境中，当我看到HadoopStreaming将文件输入转换为mapper的stdin并将还原器的stdout转换为文件输出时，我有一些关于如何输入文件的问题：我们是否必须在mapper.py中设置来自STDIN的输入，并让HadoopStreaming将hdfs输入目录中的文件<

浏览 1提问于2011-01-29得票数 2

4回答

控制hadoop映射器输出文件的数量

、、

我有份工作给hadoop。当作业被声明时，我已经启动了一些映射器。每个映射器都会将一些文件写入磁盘，比如part-m-00000、part-m-00001。据我所知，每个映射器创建一个零件文件。我有大量的数据，所以必须有多个映射器，但我能以某种方式控制这个输出文件的数量吗？我的意思是，hadoop将启动，例如10个映射器，但将只

浏览 0提问于2013-07-19得票数 1

回答已采纳

2回答

在Hadoop* MapReduce中可以有多个输入和多个不同的映射器吗？*

、

在Hadoop MapReduce中可以有多个输入和多个不同的映射器吗？每个映射器类都使用一组不同的输入，但它们都会发出由相同的reducer使用的键值对。请注意，我在这里不是在谈论链接映射器，我是在谈论并行运行不同的映射器，而不是顺序地运行。

浏览 2提问于2012-06-16得票数 12

回答已采纳

1回答

2个映射器，每个映射器对应其自己的源目录-->一个缩减程序

、、

我有两个数据源，每个都以不同的格式存储数据。每个映射器都应该由不同的映射器处理，但两个映射器将到达相同的中间格式以传递给缩减程序。我知道我可以通过向hadoop流添加多个"-input“选项来处理多个输入，但是如何为每个输入分配单独的映射器？

浏览 0提问于2016-05-19得票数 0

1回答

Hadoop MapReduce读写序列文件

、、

我正在尝试编写MapReduce作业，它可以在Mapper中读取两个序列文件。我试过在“main”中读取和写入序列文件，但我不知道如何在Mapper中实现。我认为我不太熟悉MapReduce的工作原理。谢谢你帮我。

浏览 0提问于2015-07-12得票数 0

回答已采纳

1回答

用于处理不同数据库列集合的映射器任务

、

我们有一个场景，我们希望单个Hadoop作业创建/管理多个映射器任务，其中每个映射器任务将查询关系数据库表中的列的子集。我们研究了DataDrivenDBInputFormat，但这似乎只是促进了分区，其中每个映射器任务都可以查询关系数据库表中的行子集。感谢您在这方面的任何建议。谢谢。

浏览 0提问于2012-11-27得票数 1

2回答

如何将数据提供给Hadoop中的映射器？

、

我的Hadoop程序的输入是一组小文件(10个文件，每个文件大小为60MB)，我运行100个映射器。我假设每个映射器的输入数据只来自一个文件。也就是说，不存在其输入数据跨越两个(或更多)文件的映射器。这是一个正确的假设吗？

浏览 0提问于2013-10-29得票数 0

1回答

如何在Hadoop集群上运行Hadoop* Streaming？*

、、、

目前我有一个有3个节点的Hadoop集群(Ubuntu) 我想运行带有Hadoop流的python /R脚本，但是我不确定仅仅执行HS是否真的能使所有节点工作如果可能，请告诉我在群集上运行流的方向

浏览 21提问于2020-04-25得票数 0

2回答

在hadoop中实现多映射器和单归约器

、、

我是hadoop的新手。我有多个文件夹，其中包含在hadoop中处理数据的文件。我对map-reducer算法中的mapper实现有疑问。我是否可以指定多个映射器来处理多个文件，并使用单个reducer将所有输入文件作为一个输出？如果可能，请提供实施上述步骤的指导原则。

浏览 1提问于2012-08-30得票数 0

回答已采纳

2回答

如何让Hadoop* v2使用同一个映射器来处理多个块？*

、、、

简而言之：我正在尝试使用Hadoop处理大块中的大量大文件，这是<em

浏览 0提问于2016-04-26得票数 0

1回答

如何让每个映射器类在hadoop中读取同一个文件

、

在我的hadoop作业中，除了我的输入数据文件之外，我希望每个映射器类( map方法)都读取一个我放在hdfs中的公共文件。此文件将被读取到每个映射器中，并将内容保存在每个映射器中。那么该怎么做呢？

浏览 3提问于2013-03-13得票数 2

回答已采纳

2回答

如何在Mahout MatrixMultiplicationJob中增加映射器的数量？

、、、、

我使用Mahout0.7的MatrixMultiplicationJob来乘以一个大的矩阵。但它总是使用一个map任务，这使得它变得很慢。这可能是由于InputSplit强制将映射器的数量设置为1。有没有一种方法可以在Hadoop / Mahout中高效地乘以矩阵或更改映射器的数量？

浏览 0提问于2012-10-04得票数 2

回答已采纳

1回答

如何在单个节点上同时运行多个映射器

、、

我在我的Mac上使用Hadoop 2.8.0。我想同时运行所有的映射器。我尝试强制对输入文件进行多个拆分，并使用多个输入文件，以便创建多个映射器。它们是创建的，但它们是按顺序运行的。完成任务****_m_为什么映射器会一个接一个地运行？如何配置才能使它们立即启动？

浏览 0提问于2017-04-23得票数 1

3回答

hadoop是如何处理大文件的？

、

我完全是Hadoop的新手，尽管我对map reduce的概念非常了解。因此，我向Hadoop专家提出的问题是，Hadoop将如何处理大文件？它是将文件的副本传输到每个映射器</e

浏览 1提问于2013-03-19得票数 3

回答已采纳

1回答

Hadoop:每个tar/zip文件对应一个映射器

、

我有几个要计算统计数据的目录。也就是说，我的mapper函数接受一个文件夹树作为输入，并根据目录及其所有子目录的内容输出一些静态数据。计算在每个目录上都需要很长时间。没有减速机。我可以为要处理的每个目录创建一个tar/zip文件，并将其复制到HDFS中。但是，如何确保为每个tar文件创建一个映射器，并将tar文件的全部

浏览 0提问于2015-05-23得票数 1

10回答

Hadoop如何执行输入拆分？

、、

这是一个涉及Hadoop/HDFS的概念性问题。假设您有一个包含10亿行的文件。为简单起见，让我们考虑每一行的形式<k,v>，其中k是该行相对于开头的偏移量，value是该行的内容。现在，当我们说要运行N个map任务时，框架是否将输入文件拆分为N个拆分，并在该拆分上运行每个map任务？或者，我们是否必须编写一个分区函数来执行N个拆分，并在生成的</em

浏览 4提问于2010-05-14得票数 39

回答已采纳

1回答

Hadoop是否在块级复制？

、、、

集群之间/集群内部的差异是映射-减少作业。我的假设是，它在输入分割级别上复制文件，这有助于提高复制性能，因为一个文件将由多个并行处理多个“片段”的映射程序复制。然而，当我阅读Hadoop的文档时，它似乎只在文件级别上起作用。请参阅此处: hadoop.apache.org/docs/current/hadoop</e

浏览 3提问于2017-02-20得票数 2

回答已采纳

1回答

hadoop mapreduce流中的多个文件输出

、、、

我正在使用hadoop map和reduce程序。我需要读取多个文件并将其输出到多个文件中Input \ one.txt three.txt one_out.txttwo_out.txt 我需要一些像这样的东西。

浏览 0提问于2013-11-14得票数 0

2回答

使用Hadoop* MapReduce在不同节点上处理不同的文件*

、、、

我以前用过猪和蜂巢，但对Hadoop MapReduce来说还是个新手。我需要编写一个有多个小文件作为输入的应用程序(比如10个)。它们具有不同的文件结构，所以我希望在不同的节点上并行处理它们，以便能够快速处理它们。我知道Hadoop的优点是处理大型数据，但是这些输入文件虽然很小，但需要大量处理，所以我希望利用Hadoop的并行

浏览 0提问于2012-12-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么从一个文件插入到一个表中会产生多个映射器，而从另一个文件插入到一个文件中却不会？

在Hadoop环境中，STDIN还是文件作为映射器输入？

控制hadoop映射器输出文件的数量

在Hadoop* MapReduce中可以有多个输入和多个不同的映射器吗？*

2个映射器，每个映射器对应其自己的源目录-->一个缩减程序

Hadoop MapReduce读写序列文件

用于处理不同数据库列集合的映射器任务

如何将数据提供给Hadoop中的映射器？

如何在Hadoop集群上运行Hadoop* Streaming？*

在hadoop中实现多映射器和单归约器

如何让Hadoop* v2使用同一个映射器来处理多个块？*

如何让每个映射器类在hadoop中读取同一个文件

如何在Mahout MatrixMultiplicationJob中增加映射器的数量？

如何在单个节点上同时运行多个映射器

hadoop是如何处理大文件的？

Hadoop:每个tar/zip文件对应一个映射器

Hadoop如何执行输入拆分？

Hadoop是否在块级复制？

hadoop mapreduce流中的多个文件输出

使用Hadoop* MapReduce在不同节点上处理不同的文件*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐