Hadoop:拆分元数据大小超过10000000

、

当我运行一个级联作业时，我得到一个错误：我尝试通过将以下内容传递给命令行来增加每个作业级别的限制 xxx.jar -D mapreduce.job.split.metainfo.maxsi‌ze我使用的是hadoop 2.5。有谁能指出我做错了什么吗？

浏览 5提问于2016-08-19得票数 5

1回答

如何编写mapreduce框架来拆分metainfo文件

、

对于mapreduce作业，我得到了以下错误：作业初始化失败: java.io.IOException:拆分元数据大小超过10000000。，org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:828)，org.apache.hadoop.mapred.JobInProgress.initTasksjava.lang.Thread.run(Thread.jav

浏览 1提问于2015-12-28得票数 1

2回答

错误:拆分元数据大小超过10000000

、、、、

当我试图在hadoop上运行一个作业时，我得到了错误The job initialization failed: java.io.IOException: Split metadata size exceeded10000000.。

浏览 4提问于2016-12-13得票数 4

1回答

HDFS如何存储大于数据块大小的单个数据？

、

如果我的单个数据超过块大小，hadoop将如何拆分数据？例如：我存储的数据(说到单个记录)是80MB，块大小是64MB，那么hadoop是如何管理这种情况的呢？

浏览 41提问于2019-03-17得票数 0

2回答

使用大表的猪偏斜连接导致“拆分元数据大小超过10000000”

、、

但是，当我们尝试一个更大的偏斜表(19B行)时，我们从采样器作业中得到以下消息：at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48) at org.apache.hadoop.mapred.JobInProgre

浏览 1提问于2013-06-18得票数 5

6回答

Hadoop namenode元数据

、

我被Hadoop架构弄糊涂了。在Hadoop中存储什么样的文件元数据？从Hadoop，它说Namenode存储整个系统名称空间。上一次修改时间、创建时间、文件大小、所有者、权限等信息是否存储在Namenode中？是否只存储任何元数据()，元数据是否超过服务器的限制?如果用户想从Hadoop下载文件，他必须从Namenode下载吗？我从网上找到了下面的架构图片，它显示客户端可以直接

浏览 12提问于2011-06-07得票数 2

回答已采纳

1回答

如何加载这个大容量的hadoop文件？

、

如何加载这个大容量的hadoop文件？目录中的一个文件很奇怪，它只有一个名称"-"，其大小超过45G。我首先使用hadoop fs -get将数据获取到本地linux ，然后使用WinSCP将数据加载到本地。但是我的本地Linux虚拟机的容量只有19G，怎么做呢？我正在考虑使用hadoop命令将45G文件拆分为较小的文件。但我没有找到这样的命令。

浏览 2提问于2016-04-15得票数 1

1回答

怎么知道不。在映射作业中运行的节点。

、

输入分块的数量是否决定了mapreduce作业中正在运行的节点数。如何在clouderavm中检查

浏览 0提问于2016-04-04得票数 0

回答已采纳

2回答

如何理解hadoop文件大小和局部性优化

默认情况下，Hadoop块大小为64 is。建议Hadoop中的每个文件小于64 so，因此每个文件都位于一个块中。当一个map函数启动时，它可以从一个块读取文件的所有数据，而不需要额外的数据传输。我的问题是，这个规则是否适用于可以拆分的文件？例如大多数文本文件，csv文件。每个映射函数只处理一个文件的分割。默认的文本文件拆分器确保每个拆分都落入一个块中。所以我认为对于像CSV格式这样的文件，即使它是超过一个块大小

浏览 3提问于2015-03-08得票数 0

回答已采纳

2回答

hadoop中作业客户端如何计算inputSplits

、

我的问题是：根据我正在咨询的内容，job Client在运行作业时指定的HDFS上的输入路径中的数据上计算输入拆分。文章说，然后Job Client将资源(jars和计算的输入拆分)复制到HDFS。现在我的问题是，当输入数据在HDFS中时，为什么jobClient会将计算出的输入拆分复制到HDFS中。让我们假设作业客户端将输入拆分复制到HDFS，现在当Job被提交到作业跟踪器和作业跟踪器定制作业时，为什么它

浏览 1提问于2013-04-18得票数 1

回答已采纳

1回答

hadoop拆分工作方式的混乱

、、

我们是Hadoop新手，我们知道hadoop用于处理大数据，以及笛卡尔产品是如何极其昂贵的。我们的设置:3节点集群，块大小= 64M，我们测试了从5000点(130KB)到10000点(260KB)的不同数据集大小。观察结果： 1-所有映射任务都在一个节点上运行，有时在主计算机上，有时在一个从属计算机上，但它从未在超过一个machine.Is上处理。有什么方法可以强制hadoop分配拆分，从而在计算机之间映射任务？hadoop

浏览 0提问于2013-12-17得票数 0

1回答

hadoop map-reduce作业因初始化失败而崩溃: java.io.IOException:拆分元数据大小超过10000000。正在中止作业

、、、、

我在CDH3 -Hadoop 0.20.2-cdh3u1上也收到错误"Split metadata size exceeded 10000000“的问题。在我的示例中，有两个输入inp1大小=1 MB inp2大小=7 MB 当我使用mapred.max.split.size = 256MB时，它抛出以下错误。Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000.(SplitMe

浏览 2提问于2015-05-19得票数 0

1回答

我应该以哪种格式以及如何将我的JSON行(如数据)导入hadoop？

、、、

我读了很多关于hadoop数据格式的文章，目前似乎了解到，根据您使用的软件包，最高级的格式是ORC (在Hortonworks上得到很好的支持)或Parquet (在Cloudera上得到很好的支持)。我的数据是电影元数据，如下所示： actors: ["Leonardo diCaprio"], so

浏览 6提问于2015-04-16得票数 1

1回答

Hadoop数据分割与数据流控制

、、、、

我有两个问题，一个hadoop作为一个存储系统。我有一个由3个数据节点组成的hadoop集群，我希望将一个大型文件的拆分(比如128 my大小)(假设拆分大小为64 my)定向到我选择的数据节点。在这种情况下，这就是如何控制哪个DataNode被分配给哪个拆分。我的意思是，假设我们有3个数据节点(即D1、D2、D3)，我们想要特定的拆分(假设'A')，我希望它移动到特定的

浏览 1提问于2012-08-13得票数 0

回答已采纳

1回答

使用split编写脚本

、、

如何编写只拆分我目录中大于1,000 my的PDF文件的shell脚本？不使用pdftk或任何其他可下载的工具我希望由Bytes来拆分PDF，因为我也反对使用可下载的工具，因为我的工作人员明确表示，我们不允许下载任何类型的工具。

浏览 0提问于2018-04-09得票数 -2

2回答

分布式系统中语义网的推理

、、

我想在Hadoop平台上使用推理机。我已经用两个Ubuntu虚拟机实现了Hadoop结构，并且运行良好。当我想使用WebPie对RDF文件进行推理时，由于需要序列文件格式，该过程失败。没有提到序列文件格式是在Hadoop中进行推理的先决条件。

浏览 1提问于2013-01-21得票数 5

1回答

当分块大小大于指定的分块大小时，分块计数不能拆分

、

情况是这样的：那么，您能帮我们确认一下这是否可以吗？我们想要的是尽可能多

浏览 1提问于2015-04-24得票数 0

2回答

HDFS -与块大小相关的

、、

我只有10 MB大小的文件。我认为在HDFS中，第一个文件消耗10 MB，其余54 MB被释放到广告到可用的空间。例如，如果我们消耗2个64 MB的块和20 MB的第3块，那么输入拆分将给出3输出2 64 MB和1 20 MB？是真的吗？

浏览 3提问于2015-11-04得票数 0

回答已采纳

1回答

无法将大文件加载到Spark群集主节点上的HDFS

、、、

上启动了一个Spark集群，其中包含1个主节点和2个从节点，每个节点都有2.7 up的内存/root/ephemeral-hdfs/bin/hadoop仅供参考，我可以上传较小大小的文件，但当它超过一定大小(约2.2 gb)时无法上传。如果文件超过一个节点的内存大小，Hadoop不会将其拆分到另一个节点吗？

浏览 0提问于2016-04-03得票数 0

1回答

配置单元表中的分区/存储桶的数量与它为该数据的任何操作启动的映射任务的数量之间是否存在关系？

、、、、

我知道map任务的数量与输入格式给出的输入拆分数量相同。当在分区或分桶的配置单元表上执行操作时，当数据以分区或分桶的数据的目录中的文件的形式存在时，InputFormat类如何计算输入拆分？输入拆分(映射任务的数量)与分区或存储桶的数量之间是否存在某种关系？

浏览 0提问于2016-05-05得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何编写mapreduce框架来拆分metainfo文件

错误:拆分元数据大小超过10000000

HDFS如何存储大于数据块大小的单个数据？

使用大表的猪偏斜连接导致“拆分元数据大小超过10000000”

Hadoop namenode元数据

如何加载这个大容量的hadoop文件？

怎么知道不。在映射作业中运行的节点。

如何理解hadoop文件大小和局部性优化

hadoop中作业客户端如何计算inputSplits

hadoop拆分工作方式的混乱

hadoop map-reduce作业因初始化失败而崩溃: java.io.IOException:拆分元数据大小超过10000000。正在中止作业

我应该以哪种格式以及如何将我的JSON行(如数据)导入hadoop？

Hadoop数据分割与数据流控制

使用split编写脚本

分布式系统中语义网的推理

当分块大小大于指定的分块大小时，分块计数不能拆分

HDFS -与块大小相关的

无法将大文件加载到Spark群集主节点上的HDFS

配置单元表中的分区/存储桶的数量与它为该数据的任何操作启动的映射任务的数量之间是否存在关系？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐