腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3707)
视频
沙龙
1
回答
Hadoop
:
拆分
元
数据
大小
超过
10000000
、
当我运行一个级联作业时,我得到一个错误:我尝试通过将以下内容传递给命令行来增加每个作业级别的限制 xxx.jar -D mapreduce.job.split.metainfo.maxsize我使用的是
hadoop
2.5。有谁能指出我做错了什么吗?
浏览 5
提问于2016-08-19
得票数 5
1
回答
如何编写mapreduce框架来
拆分
metainfo文件
、
对于mapreduce作业,我得到了以下错误: 作业初始化失败: java.io.IOException:
拆分
元
数据
大小
超过
10000000
。,org.apache.
hadoop
.mapred.JobInProgress.createSplits(JobInProgress.java:828),org.apache.
hadoop
.mapred.JobInProgress.initTasksjava.lang.Thread.run(Thread.jav
浏览 1
提问于2015-12-28
得票数 1
2
回答
错误:
拆分
元
数据
大小
超过
10000000
、
、
、
、
当我试图在
hadoop
上运行一个作业时,我得到了错误The job initialization failed: java.io.IOException: Split metadata size exceeded
10000000
.。
浏览 4
提问于2016-12-13
得票数 4
1
回答
HDFS如何存储大于
数据
块
大小
的单个
数据
?
、
如果我的单个
数据
超过
块
大小
,
hadoop
将如何
拆分
数据
?例如:我存储的
数据
(说到单个记录)是80MB,块
大小
是64MB,那么
hadoop
是如何管理这种情况的呢?
浏览 41
提问于2019-03-17
得票数 0
2
回答
使用大表的猪偏斜连接导致“
拆分
元
数据
大小
超过
10000000
”
、
、
但是,当我们尝试一个更大的偏斜表(19B行)时,我们从采样器作业中得到以下消息:at org.apache.
hadoop
.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48) at org.apache.
hadoop
.mapred.JobInProgre
浏览 1
提问于2013-06-18
得票数 5
6
回答
Hadoop
namenode
元
数据
、
我被
Hadoop
架构弄糊涂了。 在
Hadoop
中存储什么样的文件
元
数据
?从
Hadoop
,它说Namenode存储整个系统名称空间。上一次修改时间、创建时间、文件
大小
、所有者、权限等信息是否存储在Namenode中?是否只存储任何
元
数据
(),
元
数据
是否
超过
服务器的限制?如果用户想从
Hadoop
下载文件,他必须从Namenode下载吗?我从网上找到了下面的架构图片,它显示客户端可以直接
浏览 12
提问于2011-06-07
得票数 2
回答已采纳
1
回答
如何加载这个大容量的
hadoop
文件?
、
如何加载这个大容量的
hadoop
文件?目录中的一个文件很奇怪,它只有一个名称"-",其
大小
超过
45G。我首先使用
hadoop
fs -get将
数据
获取到本地linux ,然后使用WinSCP将
数据
加载到本地。但是我的本地Linux虚拟机的容量只有19G,怎么做呢?我正在考虑使用
hadoop
命令将45G文件
拆分
为较小的文件。但我没有找到这样的命令。
浏览 2
提问于2016-04-15
得票数 1
1
回答
怎么知道不。在映射作业中运行的节点。
、
输入分块的数量是否决定了mapreduce作业中正在运行的节点数。如何在clouderavm中检查
浏览 0
提问于2016-04-04
得票数 0
回答已采纳
2
回答
如何理解
hadoop
文件
大小
和局部性优化
默认情况下,
Hadoop
块
大小
为64 is。建议
Hadoop
中的每个文件小于64 so,因此每个文件都位于一个块中。当一个map函数启动时,它可以从一个块读取文件的所有
数据
,而不需要额外的
数据
传输。我的问题是,这个规则是否适用于可以
拆分
的文件?例如大多数文本文件,csv文件。 每个映射函数只处理一个文件的分割。默认的文本文件
拆分
器确保每个
拆分
都落入一个块中。所以我认为对于像CSV格式这样的文件,即使它是
超过
一个块
大小
浏览 3
提问于2015-03-08
得票数 0
回答已采纳
2
回答
hadoop
中作业客户端如何计算inputSplits
、
我的问题是:根据我正在咨询的内容,job Client在运行作业时指定的HDFS上的输入路径中的
数据
上计算输入
拆分
。文章说,然后Job Client将资源(jars和计算的输入
拆分
)复制到HDFS。现在我的问题是,当输入
数据
在HDFS中时,为什么jobClient会将计算出的输入
拆分
复制到HDFS中。让我们假设作业客户端将输入
拆分
复制到HDFS,现在当Job被提交到作业跟踪器和作业跟踪器定制作业时,为什么它
浏览 1
提问于2013-04-18
得票数 1
回答已采纳
1
回答
hadoop
拆分
工作方式的混乱
、
、
我们是
Hadoop
新手,我们知道
hadoop
用于处理大
数据
,以及笛卡尔产品是如何极其昂贵的。我们的设置:3节点集群,块
大小
= 64M,我们测试了从5000点(130KB)到10000点(260KB)的不同
数据
集
大小
。观察结果: 1-所有映射任务都在一个节点上运行,有时在主计算机上,有时在一个从属计算机上,但它从未在
超过
一个machine.Is上处理。有什么方法可以强制
hadoop
分配
拆分
,从而在计算机之间映射任务?
hadoop
浏览 0
提问于2013-12-17
得票数 0
1
回答
hadoop
map-reduce作业因初始化失败而崩溃: java.io.IOException:
拆分
元
数据
大小
超过
10000000
。正在中止作业
、
、
、
、
我在CDH3 -
Hadoop
0.20.2-cdh3u1上也收到错误"Split metadata size exceeded
10000000
“的问题。在我的示例中,有两个输入inp1
大小
=1 MB inp2
大小
=7 MB 当我使用mapred.max.split.size = 256MB时,它抛出以下错误。Job initialization failed: java.io.IOException: Split metadata size exceeded
10000000
.(SplitMe
浏览 2
提问于2015-05-19
得票数 0
1
回答
我应该以哪种格式以及如何将我的JSON行(如
数据
)导入
hadoop
?
、
、
、
我读了很多关于
hadoop
数据
格式的文章,目前似乎了解到,根据您使用的软件包,最高级的格式是ORC (在Hortonworks上得到很好的支持)或Parquet (在Cloudera上得到很好的支持)。我的
数据
是电影
元
数据
,如下所示: actors: ["Leonardo diCaprio"], so
浏览 6
提问于2015-04-16
得票数 1
1
回答
Hadoop
数据
分割与
数据
流控制
、
、
、
、
我有两个问题,一个
hadoop
作为一个存储系统。我有一个由3个
数据
节点组成的
hadoop
集群,我希望将一个大型文件的
拆分
(比如128 my
大小
)(假设
拆分
大小
为64 my)定向到我选择的
数据
节点。在这种情况下,这就是如何控制哪个DataNode被分配给哪个
拆分
。我的意思是,假设我们有3个
数据
节点(即D1、D2、D3),我们想要特定的
拆分
(假设'A'),我希望它移动到特定的
浏览 1
提问于2012-08-13
得票数 0
回答已采纳
1
回答
使用split编写脚本
、
、
如何编写只
拆分
我目录中大于1,000 my的PDF文件的shell脚本?不使用pdftk或任何其他可下载的工具 我希望由Bytes来
拆分
PDF,因为我也反对使用可下载的工具,因为我的工作人员明确表示,我们不允许下载任何类型的工具。
浏览 0
提问于2018-04-09
得票数 -2
2
回答
分布式系统中语义网的推理
、
、
我想在
Hadoop
平台上使用推理机。我已经用两个Ubuntu虚拟机实现了
Hadoop
结构,并且运行良好。当我想使用WebPie对RDF文件进行推理时,由于需要序列文件格式,该过程失败。没有提到序列文件格式是在
Hadoop
中进行推理的先决条件。
浏览 1
提问于2013-01-21
得票数 5
1
回答
当分块
大小
大于指定的分块
大小
时,分块计数不能
拆分
、
情况是这样的:那么,您能帮我们确认一下这是否可以吗? 我们想要的是尽可能多
浏览 1
提问于2015-04-24
得票数 0
2
回答
HDFS -与块
大小
相关的
、
、
我只有10 MB
大小
的文件。我认为在HDFS中,第一个文件消耗10 MB,其余54 MB被释放到广告到可用的空间。例如,如果我们消耗2个64 MB的块和20 MB的第3块,那么输入
拆分
将给出3输出2 64 MB和1 20 MB?是真的吗?
浏览 3
提问于2015-11-04
得票数 0
回答已采纳
1
回答
无法将大文件加载到Spark群集主节点上的HDFS
、
、
、
上启动了一个Spark集群,其中包含1个主节点和2个从节点,每个节点都有2.7 up的内存/root/ephemeral-hdfs/bin/
hadoop
仅供参考,我可以上传较小
大小
的文件,但当它
超过
一定
大小
(约2.2 gb)时无法上传。 如果文件
超过
一个节点的内存
大小
,
Hadoop
不会将其
拆分
到另一个节点吗?
浏览 0
提问于2016-04-03
得票数 0
1
回答
配置单元表中的分区/存储桶的数量与它为该
数据
的任何操作启动的映射任务的数量之间是否存在关系?
、
、
、
、
我知道map任务的数量与输入格式给出的输入
拆分
数量相同。当在分区或分桶的配置单元表上执行操作时,当
数据
以分区或分桶的
数据
的目录中的文件的形式存在时,InputFormat类如何计算输入
拆分
?输入
拆分
(映射任务的数量)与分区或存储桶的数量之间是否存在某种关系?
浏览 0
提问于2016-05-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据 HDFS 小文件处理方案
数据:上周元宇宙虚拟土地销售总额超过1亿美元
到2025年我国数据安全产业规模力争超过1500亿元
十六部门:到2025年数据安全产业规模超过1500亿元,年复合增长率超过30%
十六部门:到2025年数据安全产业规模超过1500亿元 年复合增长率超过30%
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券