the directory item limit is exceed: limit=1048576问题的解决

当spark流式数据分析处理跑了一段时间之后,突然会出现报错,如下:

意思就是目录超过了HDFS的文件个数限制。

然而这个问题网上真的不太好找,在定位一番之后,终于明确就是HDFS本身的容量限制问题,而这个正常在配置里面是没有的,只有新增加一行配置才能生效,否则就是按照默认的1048576来处理。

<property>
   <name>dfs.namenode.fs-limits.max-directory-items</name>
   <value>1048576</value>
   <description>Defines the maximum number of items that a directory may
       contain. Cannot set the property to a value less than 1 or more than
       6400000.</description>
 </property>

把这个配置添加到hdfs-site.xml中,把值设置为大一些,问题搞定。

不过在此也存在一个问题,这个HDFS的限制有个范围,最多不能超过6400000,因此后续还要考虑到历史数据的删除。

做大数据就是各种坑。在数据不多的时候还真不好发现。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏一名合格java开发的自我修养

storm1.0节点间消息传递过久分析及调优

  序:最近对storm平台系统进行性能检测发现偶尔会出现oncebolt向另一个twobolt发送数据后,twobolt要500毫秒后才接收到进行处理。这里简...

762
来自专栏大数据和云计算技术

HDFS学习:HDFS机架感知与副本放置策略

洋哥YARN和HDFS实践系列大作,这是第三篇,前面两篇分别是: Yarn【label-based scheduling】实战总结(二) Yarn【label-...

73010
来自专栏SDNLAB

OpenStack L版本network troubleshooting

目前已经有很多介绍OpenStack新特性以及OpenStack网络详解等文章,但是对于Liberty的Network_Troubleshooting的文章还是...

29410
来自专栏源码之家

discuz x2.5如何彻底去掉路径中portal.php

2684
来自专栏恰同学骚年

Hadoop学习笔记—15.HBase框架学习(基础知识篇)

HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的...

1052
来自专栏依乐祝

.NET Core实战项目之CMS 第四章 入门篇-Git的快速入门及实战演练

上篇文章我带着大家通过分析了一遍ASP.NET Core的源码了解了它的启动过程,然后又带着大家熟悉了一遍配置文件的加载方式,最后引出了依赖注入以及控制反转的概...

731
来自专栏北京马哥教育

【Linux调优】linux系统性能监控与优化(1)–简介

最近几年做了很多性能优化的事情,但是一直没有形成一套理论,也没有很好的形成一个好的排查问题的流程,每次做优化,大多是经验式的查找,最近看了一下这本书《linux...

2876
来自专栏Hadoop数据仓库

HAWQ技术解析(十三) —— 资源管理

一、HAWQ如何管理资源         HAWQ使用多种机制管理CPU、内存、I/O、文件句柄等系统资源,包括全局资源管理、资源队列、强制资源使用限额等。 1...

2335
来自专栏java架构师

Hadoop学习4--安装Hadoop

首先献上Hadoop下载地址: http://apache.fayea.com/hadoop/core/ 选择相应版本,点一下,直接进行http下载了。  对原...

2849
来自专栏大神带我来搬砖

分布式数据存储系统kudu使用总结

Kudu是Cloudera开源的新型列式存储系统,专门为了对快速变化的数据进行快速的分析。 在国内,小米和神策都已经采用了kudu。 我们使用了kudu 1...

3689

扫码关注云+社区