Mapreduce中的块_JSON MapReduce中的错误_eclipse中的mapreduce问题 - 腾讯云开发者社区

java、mongodb、collections、mapreduce

当在java中使用时，下面的代码段工作得很好。但是，mapreduce中是否有一种使用java驱动程序将结果存储到不同数据库中的方法。我想要实现这一点，因为mapreduce不能创建有上限的集合。因此，我希望将mapreduce的结果写入不同的集合，并在目标数据库中创建一个有上限的集合，并将其插入到该集合中。 `MapReduceCommand wktgtcmd = new MapReduceCommand(tgtCollection, wk_map_function, tgt_reduce_function, "collection Stri

浏览 2提问于2013-07-23得票数 1

回答已采纳

1回答

在mapper中处理输入块的哪个副本？

java、hadoop、mapreduce、hdfs

我为用Java语言编写的MapReduce作业创建了一个简单的I/O监视系统。因此，在作业的Map阶段，我希望记录有关已处理数据的位置的信息。映射阶段的MapReduce作业处理输入拆分，该拆分由HDFS中的几个文件块组成。该块有几个(通常是3个)副本。在Mapper中读取时，是否有可能知道这些块的哪些副本已被使用？换句话说，我可以获得Mapper读取的本地文件系统中特定文件的完整路径吗？

浏览 3提问于2015-09-14得票数 0

1回答

Riak返回错误“正在读取大小的大型对象...”当mapreduce

riak

当我尝试运行查询mapreduce时，Riak返回一个错误preflist_exhausted。在console.log中出现警告： riak_kv_vnode:do_get_object:1300 Reading large object of size 8360185. 我将大对象存储在Riak中(最大20MB)。有没有在这种大小的对象上执行mapreduce的设置？我的mapreduce： { "inputs":"myclients", "query": [{ "map":

浏览 0提问于2014-06-24得票数 0

2回答

为什么MapReduce映射内存大于群集上的数据块大小？

hadoop、mapreduce、hdfs、hadoop-yarn、cloudera

Hadoop Yarn中的观察结果如下： a)对于每个InputSplit或块，将触发新的map。 b)群集的典型数据块大小为128 MB。 c)在大多数集群中，MapReduce.map.memory.mb将被配置为大于1 GB。实际上，Cloudera推荐的数据块大小为128MB，MapReduce.map.memory.mb为1 GB 当块大小只有128MB时，为什么我们需要将1 GB分配给映射内存(MapReduce.map.memory.mb)？理想情况下，128MB应该最多能满足需要。为什么我们甚至为map内存提供了比块大小更多的内存？

浏览 0提问于2017-03-10得票数 2

3回答

MapReduce作业在HDFS上是如何工作的？

hadoop、mapreduce、hdfs、word-count

因此，我对整个大数据运动，特别是Hadoop是个新手。我想知道如果HDFS中的一个文件已经被拆分了，如果这个文件已经被拆分了，MapReduce作业该如何执行？例如，对文本文件执行简单的单词计数MapReduce作业。我的理解是，在HDFS中，文件将被分割并分布在数据节点上。word count作业是在已经拆分的文件上工作，还是自己对文件进行拆分？作为mapreduce程序员，人们不应该担心文件是如何被拆分的吗？作为后续，当HDFS执行文件拆分时，它是否使用任何定义的规则进行过滤和拆分？例如，这是一个电话簿，HDFS是否知道按无行为顺序划分块，就像一个块中的所有A块都是另一个块中的B块一样，

浏览 2提问于2014-06-03得票数 0

1回答

非hdfs文件系统上的hadoop/yarn和任务并行化

hadoop、hdfs、hpc、hadoop2

我已经实例化了一个Hadoop2.4.1集群，并且我发现，根据输入数据所在的文件系统的类型，运行MapReduce应用程序的并行化方式会有所不同。使用HDFS，MapReduce作业将产生足够的容器，以最大限度地利用所有可用内存。例如，一个具有172 2GB内存的3节点集群，每个map任务分配2 2GB，将创建大约86个应用程序容器。在一个不是HDFS的文件系统上(比如NFS或者在我的用例中，是一个并行文件系统)，一个MapReduce作业将只分配可用任务的一个子集(例如，使用相同的3节点集群，大约创建25-40个容器)。因为我使用的是并行文件系统，所以我并不担心使用NFS时会遇到的瓶颈。

浏览 0提问于2014-08-13得票数 7

1回答

计算和控制蜂巢查询所用映射器的数量

hive、mapper

我有一个Hive表t1，它有104个文件。在104个文件中，1个文件为61 MB，其余103个文件小于1MB。当我执行查询时 select count(*) from t1 29个映射器与1个减速器一起执行。我想弄清楚为什么29个映射器，以及如何减少映射器的数量？ mapreduce.input.fileinputformat.split.maxsize=256MB mapreduce.input.fileinputformat.split.maxsize=1kb 谢谢

浏览 2提问于2016-03-30得票数 0

1回答

如何在MapReduce框架中分割输入文件？

hadoop、mapreduce

假设使用mappers提供一个map-还原作业，该任务由输入文件F提供。显然，mapreduce框架将F分割成块(64 MB作为默认值)，并将每个块提供给映射程序。我的问题是，如果我运行这个mapreduce作业几次，它们中块的形成方式是否都是相同的？也就是说，mapreduce框架拆分F的点保持不变，还是可能有所不同？例如，假设F包含以下行： 1,2 3,5 5,6 7,6 5,5 7,7 在第一个运行中，mapreduce形成两个块，如下所示：第1组： 1,2 3,5 5,6 第二部分： 7,6 5,5 7,7 我的问题是，如果我再运行一次，拆分的方式是否保持不变？此外，每个块是否有

浏览 1提问于2013-09-17得票数 0

1回答

Hadoop :读写并行性？

hadoop、hdfs

在网上找不到足够的信息，所以在这里问：假设我正在将一个巨大的文件写入磁盘，数百兆字节，这是mapreduce (或者火花之类的)的结果。mapreduce将如何有效地将这样的文件写入HDFS (可能是并行的)？以后也可以以并行的方式阅读其中的内容？我的理解是，HDFS只是基于块的(例如128 My )。因此，为了编写第二个块，您必须已经编写了第一个块(或者至少确定哪些内容将转到块1)。假设这是一个CSV文件，文件中的一行很有可能跨越两个块--我们如何将这种CSV读取到mapreduce中的不同映射程序？它是否需要做一些智能逻辑来读取两个块，连接它们并读取正确的行？

浏览 0提问于2018-11-15得票数 0

回答已采纳

1回答

map reduce程序如何处理两个节点之间碎片数据

mapreduce

我想了解mapreduce作业是如何处理数据块的。根据我的理解，每个数据块都会调用一个映射器。让我用一个例子来说明我的查询。假设我有一个很长的文本文件，其中的数据以4个数据块( 64 MB )的形式存储在4个节点上的HDFS中(这里我们先忽略复制) 在这种情况下，将在每台机器(所有4个数据节点/机器)上调用4个map任务，这里有一个问题:这种拆分可能导致存储在两个块上的部分记录。在这种情况下，mapreduce程序如何确保完整记录被处理？我希望，我已经能够把我的问题

浏览 0提问于2016-05-10得票数 1

1回答

关于KFS的Mapreduce是如何发生的？

hadoop、mapreduce

我想了解如何在Hadoop中使用KFS作为文件系统来实现mapreduce。 ./bin/start-mapred.sh If the map/reduce job/task trackers are up, all I/O will be done to KFS. 因此，假设我的输入文件分散在不同的节点(Kosmos服务器)中，我(使用KFS作为文件系统的hadoop客户端)如何发出Mapreduce命令？此外，在发出Mapreduce命令之后，我的hadoop客户端将从不同服务器获取所有数据到本地计算机，然后执行Mapreduce，还是会在输入文件所在的机器上启动TaskTrac

浏览 1提问于2013-02-22得票数 0

回答已采纳

1回答

MapReduce作业中的拆分数

hadoop、mapreduce

我正在创建一个简单的MapReduce作业，我想确切地了解我的拆分数。我是在本地经营。文件夹中有9个文件。当没有参数时，我得到了很多拆分(172)，我想是因为主机文件系统块的大小，所以我显式地设置了 jobConf.set("mapreduce.input.fileinputformat.split.minsize", "134217728"); 对于我的9份文件，我得到了46份，但我预计会有47份。因此，我分离出了大小为(根据ls -al)：672067796的“问题”文件。根据我对孤立文件的计算(总文件大小)/(最小拆分大小)= 672067796/1

浏览 6提问于2016-08-12得票数 0

1回答

NameNode堆使用率和ResourceManager堆使用率之间的差异(试图找到NameNode堆使用率的原因)？

hadoop、resourcemanager、namenode

NameNode堆使用率和ResourceManager堆使用率有什么不同？我正在尝试找出NameNode堆使用率过高的原因。在安巴里的仪表盘上我看到了..。 ? 在运行某些sqoop作业时。不确定是什么原因导致NN使用率如此之高(在hadoop管理方面没有太多经验)？这是一个不寻常的数量(最近才注意到)吗？此外，在mapreduce任务100%完成后，sqoop作业似乎会被冻结，因为时间比平时长，例如。看到..。 [2020-01-31 14:00:55,193] INFO mapreduce.JobSubmitter: number of splits:12 [2020-01-

浏览 51提问于2020-02-01得票数 0

回答已采纳

2回答

纱线与MapReduce机架

apache-spark、mapreduce、hadoop-yarn、hadoop2、mrv2

我知道纱线框架的基本知识，但是对于MapReduce，我仍然感到缺乏一些理解。关于纱线，我读到MapReduce只是可以在纱线上运行的应用程序之一；例如，对于纱线，在同一个集群上可以运行各种不同的作业，MapReduce作业、火花作业等等。现在，重点是，每种类型的工作都有自己的“工作阶段”，例如，当我们谈到MapReduce时，它有不同的阶段，如Mapper、排序、Shuffle、Reducer等。具体到这个场景，谁“决定”、“控制”这些阶段？是MapReduce框架吗？据我所知，纱线是一个运行不同作业的基础设施；因此，当我们提交一个MapReduce作业时，它是否首先进入MapRed

浏览 0提问于2018-03-30得票数 0

回答已采纳

1回答

读取大量csv文件时mapreduce失败

csv、hadoop、mapreduce

如果我通过mapreduce单独运行csv文件，我就能够读取它们。但是，当我从具有n个文件的文件夹运行时，mapreduce作业在100%时失败，显示了以下错误： INFO mapreduce.Job: map 99% reduce 0% INFO mapred.Task: Task:attempt_local1889843460_0001_m_000190_0 is done. And is in the process of committing INFO mapred.LocalJobRunner: map INFO mapred.Task: Task 'attempt_loc

浏览 4提问于2014-12-18得票数 0

回答已采纳

1回答

当尝试将mapReduce调用的结果写入分片集合时，mongos shell中出现错误13141

mongodb、mongodb-3.0

在db init脚本中，我们有以下行： var conn = new Mongo(); var admin = conn.getDB("admin"); var db = conn.getDB("foodb"); admin.runCommand({ "enableSharding": "foodb" }); // ... db.runCommand({ "create": "foo_stats" }); admin.runCommand({ "shardCollection": &

浏览 0提问于2016-05-31得票数 1

回答已采纳

1回答

hadoop/emr如何存储键值对

java、hadoop、amazon-web-services、distributed-caching、emr

我在电子病历上运行了一系列MapReduce作业。但是，第三个MapReduce作业需要第二个MapReduce作业的数据输出，并且输出基本上超过一百万个键值对(键和值都小于1KB)。有没有一种好方法可以将此信息存储在与EMR相同的计算机上的分布式存储中，以便后续作业可以访问这些信息？我看过，但它更多的是用来存储文件的？我不确定Hadoop是否针对存储一百万个小文件进行了优化。或者，我可以使用另一个MapReduce作业将所有键-值对组合到一个输出文件中，然后将整个文件放入DistributedCache中。请给我建议。谢谢!

浏览 3提问于2013-05-05得票数 1

回答已采纳

1回答

Haskell:使用MapReduce搜索子字符串？

haskell

我正在尝试使用现有的MapReduce实现( Real 中的实现)编写一个简单的程序。作为使用框架的一个例子，下面是一些代码来计算文件中的单词数： module Main where import Control.Monad (forM_) import Data.Int (Int64) import qualified Data.ByteString.Lazy.Char8 as LB import System.Environment (getArgs) import LineChunks (chunkedReadWith) import MapReduce (mapReduce, r

浏览 0提问于2013-03-03得票数 3

回答已采纳

3回答

使用Pig拉丁语在有许多小输入文件时提高性能

hadoop、apache-pig

目前我正在处理大约19G的日志数据，而且它们是分开的，所以输入文件的大小是145258(猪的属性)。在web中执行应用程序和启动mapreduce作业之间，大量的时间被浪费在准备上(大约3小时？)然后mapreduce作业开始了。而且mapreduce作业本身(通过Pig脚本)非常慢，大约需要一个小时。 mapreduce逻辑没有那么复杂，就像按操作分组一样。我有3个数据节点和1个namenode，1个二级名称节点。如何优化配置以提高mapreduce的性能？

浏览 7提问于2013-08-27得票数 0

回答已采纳

1回答

dfs.blocksize，file.blocksize，kfs.blocksize等在hadoop工作中有什么作用？

hadoop、mapreduce

当我检查hadoop (版本0.21.0) mapreduce作业的job.xml文件时，我发现存在多个blocksize设置： dfs.blocksize = 134217728 (即128) file.blocksize = 67108864 (即64) kfs.blocksize = 67108864 s3.blocksize = 67108864 s3native.blocksize = 67108864 ftp.blocksize = 67108864 我期望得到一些答案来解释以下相关问题：在这个语境中，dfs、file、kfs、s3等是什么意思

浏览 0提问于2014-08-06得票数 2

回答已采纳

2回答

映射Reduce筛选器记录

mapreduce

我有一组记录，我只需要处理男性记录，在map reduce程序中，我使用if条件来过滤程序下面的男性records.but，该程序提供零记录作为输出。输入文件： 1，Brandon Buckner，avil，女性，525 2，韦达·霍普金斯，avil，男性，633 3，Zia Underwood，扑热息痛，男性，980 4，奥斯汀·梅尔，扑热息痛，女，338 5，Mara Higgins，avil，女性，153 6，Sybill Crosby，avil，男性，193岁 7，泰勒·罗萨莱斯，扑热息痛，男性，778岁 8，Ivan Hale，avil，女性，454 9岁，阿里卡·吉尔摩，扑热息痛

浏览 3提问于2015-09-24得票数 1

1回答

从MySQL数据库导入时无法复制到Hadoop中的Datanode

java、mysql、hadoop、hdfs、sqoop

我正在尝试将数据从mysql表导入到hdfs。我正在使用下面的sqoop导入命令 sqoop import --connect jdbc:mysql://localhost:3306/employee --username root --password *** --table Emp --m 1 我得到了以下错误 16/05/07 20:01:18 ERROR tool.ImportTool: Encountered IOException running import job: java.io.FileNotFoundException: File does not exist: hdfs

浏览 1提问于2016-05-08得票数 0

回答已采纳

2回答

MapReduce中输入拆分的主要原因是什么？

input、split、mapreduce

在中描述了输入文件被划分为M个输入分割。我知道Hadoop中的HDFS自动对64MB的块进行分区(默认)，然后将这些块复制到集群中的少数其他节点，以提供容错。我想知道HDFS中的这种文件分区是否意味着在提到的MapReduce论文中描述的输入拆分。容错是造成这种分裂的唯一原因，还是有更重要的原因？如果我在没有分布式文件系统的节点集群上使用MapReduce (数据只在具有公共文件系统的本地磁盘上)，该怎么办？是否需要在映射阶段之前拆分本地磁盘上的输入文件？感谢您的回答。

浏览 0提问于2012-10-15得票数 4

回答已采纳

1回答

如何调优Hive插入覆盖分区？

hadoop、mapreduce、hive、hdfs

我在单元中编写了插入覆盖分区，以便将分区中的所有文件合并为更大的文件， SQL： SET hive.exec.compress.output=true; set hive.merge.smallfiles.avgsize=2560000000; set hive.merge.mapredfiles=true; set hive.merge.mapfiles =true; SET mapreduce.max.split.size=256000000; SET mapreduce.min.split.size=256000000; SET mapreduce.output.fileoutputfo

浏览 2提问于2016-04-04得票数 2

回答已采纳

2回答

当文件大于块大小时，如何减少蜂箱中映射器的数量？

hive、mapper

伙计们，我在单元中有一个表，它有720个分区，每个分区有400多个文件，文件的平均大小是1G。现在我执行以下SQL:插入覆盖表test_abc select *从DEFAULT.abc A，其中A.P_HOUR ='2017042400‘；这个分区(P_HOUR ='2017042400‘)有409个文件。当我提交这个sql时，我得到了以下输出信息:减少任务的数量设置为0，因为没有减少操作符信息:拆分数:409 信息:提交作业标记: job_1482996444961_9384015 我搜索了很多文档来寻找如何减少映射器的数量，很多文档在文件很小的时候解决了这个问题。我试

浏览 4提问于2017-04-28得票数 3

回答已采纳

1回答

Avro在Hadoop应用程序中的使用案例

hadoop、mapreduce、hive、avro

我是hadoop和mapreduce框架的新手。我正在浏览一些序列化格式。其中一个是Avro。这似乎是非常高效和紧凑的格式。现在假设我在HDFS中有一些文本数据，通常我会编写mapreduce作业来读取这些数据并生成输出(或者我可以运行配置单元查询)。我想知道我什么时候会在我的自定义应用程序(mapreduce作业或配置单元)中使用它？从这一点开始(数据摄取/处理)在现实世界的应用程序中，avro将出现在画面中。

浏览 1提问于2015-09-23得票数 0

2回答

Hadoop如何决定有多少节点将执行Map并减少任务？

hadoop、mapreduce、hadoop2

我对hadoop并不熟悉，我正在努力理解它。我说的是hadoop 2。当我想要做一个MapReduce的输入文件时，在MapReduce程序中，我会说拆分的参数，所以它会产生和拆分一样多的映射任务，对吗？资源管理器知道文件在哪里，并将任务发送给拥有数据的节点，但是谁说有多少节点将执行这些任务？在映射完成之后，就有了洗牌，哪个节点将执行一个约简任务，由执行散列映射的分区程序决定，对吗？有多少节点可以减少任务？完成映射的节点是否也会减少任务？谢谢。 TLDR: --如果我有一个集群，并且运行一个MapReduce作业，那么Hadoop如何决定有多少节点将执行映射任务，然后哪些节点将执行MapR

浏览 6提问于2015-10-22得票数 1

回答已采纳

2回答

蜂巢查询BlockMissingException

hadoop、mapreduce、hive、hortonworks-data-platform、tez

我在TEZ和MapReduce执行引擎上都有问题。两者似乎都与权限有关，但对于我的生活，我迷失了。当我通过TEZ执行它时，我会得到以下消息： BP-300459168-127.0.1.1-1478287363661:blk_1073741961_1140 file=/tmp/hive/hiveuser/_tez_session_dir/03029ffd-a9c2-43de-8532-1e1f322ec0cd/hive-hcatalog-core.jar : org.apache.hadoop.hdfs.BlockMissingException:无法获得块但是，查看HDFS中的文件

浏览 3提问于2016-11-11得票数 2

回答已采纳

1回答

在Hive中执行多个表的有效连接

hadoop、join、optimization、hive、query-optimization

我加入了大约14个表来创建Hive 1.2中的基表。每个表都有数百万条记录，这些都是执行查询时使用的参数 hive.exec.dynamic.partition=true; hive.exec.max.dynamic.partitions.pernode=200000; hive.exec.max.dynamic.partitions=200000; hive.exec.max.created.files=250000; hive.enforce.bucketing=true; hive.auto.convert.join=false; mapreduce.map.me

浏览 1提问于2016-06-17得票数 0

1回答

关于Oozie/Sqoop的问题

hadoop、sqoop、oozie

我有几个问题： 1. Why is there MapReduce process in Sqoop to load data from HDFS to MySQL? 例如：数据在HDFS目录：/foo/bar中。要在MySQL条形表中加载数据，为什么有一个MapReduce进程？ sqoop export --connect jdbc:mysql://localhost/hduser --table foo -m 1 --export-dir /foo/bar 输入上述命令后，将执行MapReduce进程。 2. How can I enable/disable key in MySQ

浏览 3提问于2014-04-07得票数 1

回答已采纳

1回答

Hadoop输入拆分(MapV1)

hdfs

问题:什么是输入拆分？如何在MapReduce v1中计算输入拆分？输入拆分是否与HDFS块大小相同？

浏览 4提问于2014-02-09得票数 0

1回答

节点管理器是否在每个DataNode内部执行映射和减少阶段？

hadoop、mapreduce、hdfs、hadoop-yarn

据我所知，资源管理器将MapReduce程序发送给每个节点管理器，以便在每个节点中执行MapReduce。但是在看到这个映像之后，我对实际的Map & Reduce jobs在哪里执行以及数据节点之间是如何进行洗牌感到困惑？现在不是时候进行排序，并根据不同的数据节点对数据进行分解/发送来执行Reduce Job吗？请解释一下。还让我知道这个图表中的Map Node和Reduce Node是什么。图像Src：

浏览 5提问于2015-04-21得票数 1

回答已采纳

1回答

CombineFileInputFormat只启动一个映射，总是Hadoop1.2.1。

hadoop、mapreduce

我试图使用测试CombineFileInputFormat来处理每个8MB的小文件(20个文件)。我遵循了这个中给出的示例。我能够实现和测试它。最终结果是正确的。但令我惊讶的是，它总是只有一张地图。我尝试设置属性"mapred.max.split.size“各种值，如16 in、32 in等(当然是字节)，但没有成功。还有什么是我需要做的，还是正确的行为？我正在运行一个双节点集群，默认复制为2。下面给出了开发的代码。任何帮助都是非常感谢的。 package inverika.test.retail; import org.apache.hadoop.conf.Configurati

浏览 3提问于2013-09-01得票数 2

回答已采纳

2回答

Oozie作业停滞在运行状态

hadoop、mapreduce、hadoop-yarn、oozie、oozie-coordinator

我有一个简单的作业工作流，它将mapreduce作业作为shell操作来执行。提交作业后，它的状态变为Running，并停留在那里，但永远不会结束。mapreduce集群显示有两个作业正在运行，一个属于shell应用程序启动器，另一个用于实际的mapreduce作业。但是，mapreduce作业的进程显示为未分配，进度为零(这意味着它已经启动)。有趣的是，当我终止oozie作业时，mapreduce作业实际上开始运行并成功完成。看起来像是炮弹发射器挡住了它。附注：这是一个简单的工作流程，没有可能导致等待的开始或结束日期。

浏览 1提问于2015-05-30得票数 2

3回答

为什么向mapreduce提交工作通常要花那么多时间？

hadoop、mapreduce

因此，对于20个节点集群，提交作业处理3GB(200分片)的数据通常需要30秒左右，实际执行时间大约为1m。我想了解作业提交过程中的瓶颈是什么，并理解下一个报价。每个MapReduce开销很大:启动/结束MapReduce作业需要花费时间。我知道的一些过程: 1.数据分割；2. jar文件共享

浏览 1提问于2012-07-06得票数 7

回答已采纳

1回答

Sqoop导入中出现Java堆大小错误

java、hadoop、sqoop

我一直在尝试使用Sqoop工具从MySQL数据库导入数据到配置单元。我创建了表，并将fetch-size设置为低至10。每次运行该命令时，我都会收到Java Heap Size错误，并且作业在尝试4次后被终止。我怎么才能解决这个问题。我的sqoop命令如下： sqoop import --connect jdbc:mysql://my_local_ip/mydatabase --fetch-size 10 --username root -P --table table_name --hive-import --compression-codec=snappy --as-parquetfi

浏览 0提问于2016-08-29得票数 0

2回答

Hadoop中Mapper的输入分配

java、hadoop、mapreduce、mapper

我的问题是，MapReduce框架(例如Hadoop实现)是在映射器作业开始之前或在运行时完成之前为映射器分配输入吗？也就是说，假设我有一些输入i和机器m_1,m_2 .. m_k。这些机器不需要同样的电源，有些可能有更好的性能(CPU，内存)比另一些。如果主节点将输入拆分到映射器，直到映射器任务开始，或者至少将输入分配给特定的mapper节点，可能会出现这样的情况:一些机器(更强的机器)可以完成它们的工作并等待。但是，如果拆分作业是在运行时完成的，则不会出现此问题。如果您还指出了MapReduce在preMapper阶段的整体拆分机制，我会很高兴的。

浏览 0提问于2015-09-28得票数 0

回答已采纳

1回答

如何通过hdfs MapReduce直接计算hdfs上文件的磁链？

hadoop、mapreduce、hdfs、p2p、libtorrent

如何通过MapReduce直接计算hdfs上文件或目录的磁链？

浏览 3提问于2019-09-24得票数 0

回答已采纳

3回答

什么时候文件从本地系统移到HDFS？

hadoop、mapreduce、hdfs

我是Hadoop的新手，所以如果我的问题是微不足道的，请原谅我。本地文件系统与HDFS不同。在创建mapreduce程序时，我们使用fileinputformat.addInputPath()函数来文件输入文件路径。它是否将数据拆分为多个数据节点，同时也执行inputsplits？如果是，这些数据将在数据中停留多长时间？我们能把mapreduce程序写到HDFS中现有的数据上吗？

浏览 0提问于2018-05-11得票数 0

2回答

为什么Spark将Map阶段输出保存到本地磁盘？

apache-spark、mapreduce、rdd

我正试着深入理解火花洗牌过程。当我开始阅读时，我发现了以下几点。完成后，火花将映射任务(ShuffleMapTask)输出直接写入磁盘。我想了解下面的w.r.t到Hadoop MapReduce。如果MapReduce和Spark都将数据写入本地磁盘，那么火花洗牌过程与Hadoop MapReduce有何不同？既然数据在Spark中被表示为RDD，那么为什么这些输出不留在节点执行器内存中呢？ Hadoop、MapReduce和Spark的映射任务的输出有何不同？如果有很多小的中间文件作为输出，那么火花如何处理网络和I/O瓶颈？

浏览 6提问于2016-02-18得票数 8

2回答

MapReduce输入输出选择性

hadoop、mapreduce

我正在编写一个MapReduce程序，我对映射程序的要求是输出/发出映射输入文件的MapReduce作为还原器的输入。例如，如果我的文件有100记录，那么在50%阈值下，还原程序的输入应该只有50条记录。我已经看到了获得顶级N记录的例子，但这不是我想要的。

浏览 2提问于2018-05-24得票数 0

2回答

使用spark从s3或本地文件系统递归读取子目录中的文件

scala、hadoop、apache-spark

我正在尝试从包含许多子目录的目录中读取文件。数据在S3中，我正在尝试这样做： val rdd =sc.newAPIHadoopFile(data_loc, classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat], classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat], classOf[org.apache.hadoop.io.NullWritable]) 这似乎不起作用。感谢你的帮助

浏览 0提问于2015-01-13得票数 10

回答已采纳

1回答

Spark vs Hadoop用这个简单的例子？

apache-spark、hadoop、mapreduce

在谷歌上，Spark和Hadoop MapReduce之间的关键区别都体现在处理方法上: Spark可以在内存中完成，而Hadoop MapReduce必须从磁盘读取和写入。看起来我明白了，但我想用一个例子来确认一下。考虑下面的字数统计示例： val text = sc.textFile("mytextfile.txt") val counts = text.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_) counts.collect 我的理解

浏览 27提问于2019-05-12得票数 0

回答已采纳

1回答

写RCFile -有多少个减速器？

hadoop、hive

我有一个MapReduce实现，用于将某些日志文件直接处理到GZip压缩RCFile中，以便轻松加载到Hive中(通过外部表投影)。无论如何，我有成功和正确运行的代码，以BytesRefArrayWritable的形式将数据发送到RCFileOutputFormat中。目前，我把它作为一个纯地图作业运行，这意味着对于N个输入分块，我得到了N个输出文件。例如，对于50个输入分块，我将获得50个.rc扩展名文件。Hive可以一起解释这些文件，没有问题，但我的问题如下：是在一个目录中有50 (或N )个RCFile是最优的，还是有一个包含所有数据的RCFile是最佳的呢？我知道RCFile是一

浏览 1提问于2013-09-11得票数 0

1回答

如果集群中没有比节点更少的映射任务？

hadoop、mapreduce、hdfs

就像我们所知道的，有那么多块那么多映射任务。 MapReduce中的映射任务通常一次运行在一个块上。因此，如果我们的任务太少(比集群中的节点要少)，那么为什么作业的运行速度会比其他任务慢呢？

浏览 7提问于2014-03-12得票数 2

回答已采纳

2回答

如何将块转换为记录，以及Hadoop中记录的确切定义是什么

hadoop、mapreduce、hdfs、hadoop-yarn

我正在学习Hadoop，首先从HDFS和MapReduce开始。我了解HDFS和MapReduce的基本知识。有一点我无法理解，我现解释如下：大数据集->作为块存储在HDFS中，例如B1、B2、B3。现在，当我们运行一个MR Job时，每个映射器都在一个块上工作(假设一个映射器处理一个简单的数据块) 1 Mapper ==>进程1块我还读到，该块被划分为Records，对于给定的块，对该块中的每个记录(数据)调用相同的映射器。但是Record到底是什么呢？对于给定的块，由于它必须被“分解”成records，该块是如何被分解成记录的，以及记录的成分。在大多数示例中，我看

浏览 0提问于2018-02-26得票数 1

回答已采纳

3回答

如何将mapreduce库启动的数据存储写入最小化？

python、google-app-engine、google-cloud-datastore、mapreduce

我有三个部分来回答这个问题：我有一个应用程序，用户创建对象，其他用户可以在5分钟内更新。5分钟后，对象超时，无效。我以实体的形式存储这些对象。要执行超时，我有一个cron作业，每分钟运行一次，以清除过期的对象。现在大部分时间，我没有任何活动对象。在本例中，mapreduce处理程序检查它得到的实体，如果它不是活动的，就什么也不做，不写。然而，在大约7个小时后，我的免费数据存储写入配额将从mapreduce调用中耗尽。根据我的粗略估计，它看起来就像只运行mapreduce导致了~ 120写/调用。(粗略计算，60次调用/小时*7小时= 420次调用，50k操作限制/ 420次调用~ 120次

浏览 3提问于2012-02-22得票数 4

回答已采纳

2回答

MapReduce是否适合解决单机多核内存环境中的问题？

algorithm、concurrency、parallel-processing、mapreduce

即使在一台机器上，MapReduce抽象对于处理问题来说也是一个很好的抽象吗？例如，我有一台12核的机器，我必须计算成千上万个文件中的字数(经典的MapReduce示例)。考虑到我们在一台只有一个硬盘的机器上工作，在多线程中使用Mapper和Reducer的MapReduce实现是解决这个问题的好方法？我想我的问题可以归结为: MapReduce范例是否只适用于在机器集群中工作？

浏览 3提问于2011-06-25得票数 6

回答已采纳

3回答

了解MapReduce示例

hadoop、mapreduce、word-count

我是MapReduce的初学者，目前正在阅读Jimmy Lin和Chris Dyer ()合著的《用MapReduce进行数据密集型文本处理》一书无论如何，这本书提供的第一个例子是一个单词计数算法，我很难理解为什么reducer的最终输出是什么。示例位于文本的第23页，图2.2。据我所知，X应该是6，Y应该是9，Z应该是19。

浏览 0提问于2014-03-21得票数 0

2回答