首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >警告mapreduce.LoadIncrementalHFiles:正在跳过非目录hdfs: on EMR

警告mapreduce.LoadIncrementalHFiles:正在跳过非目录hdfs: on EMR
EN

Stack Overflow用户
提问于 2017-06-15 10:56:12
回答 0查看 319关注 0票数 0

我正在尝试在Hbase中使用mapreduce批量加载文本文件。一切正常,但是当我在最后一步进行批量加载时,我得到了警告,并且我的mapreduce作业被卡住了。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
17/06/15 10:22:43 INFO mapreduce.Job: Job job_1495181241247_0013 completed successfully
17/06/15 10:22:43 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=836391
                FILE: Number of bytes written=1988049
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=73198
                HDFS: Number of bytes written=12051358
                HDFS: Number of read operations=8
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=3
        Job Counters
                Launched map tasks=1
                Launched reduce tasks=1
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=196200
                Total time spent by all reduces in occupied slots (ms)=428490
                Total time spent by all map tasks (ms)=4360
                Total time spent by all reduce tasks (ms)=4761
                Total vcore-milliseconds taken by all map tasks=4360
                Total vcore-milliseconds taken by all reduce tasks=4761
                Total megabyte-milliseconds taken by all map tasks=6278400
                Total megabyte-milliseconds taken by all reduce tasks=13711680
        Map-Reduce Framework
                Map input records=5604
                Map output records=5603
                Map output bytes=8240332
                Map output materialized bytes=836387
                Input split bytes=240
                Combine input records=0
                Combine output records=0
                Reduce input groups=5603
                Reduce shuffle bytes=836387
                Reduce input records=5603
                Reduce output records=179296
                Spilled Records=11206
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=137
                CPU time spent (ms)=11240
                Physical memory (bytes) snapshot=820736000
                Virtual memory (bytes) snapshot=7694557184
                Total committed heap usage (bytes)=724566016
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters
                Bytes Read=72958
        File Output Format Counters
                Bytes Written=12051358
Incremental upload completed..........
job is successfull..........H file Loading Will start Now
17/06/15 10:22:43 WARN mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://ip:8020/user/hadoop/ESGTRF/outputdir/output0/_SUCCESS

同样的事情也适用于cloudera,但是当我在AWS EMR上运行它时,我得到了这个问题。

我怀疑配置有问题。我没有明确提到任何配置。

EN

回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44565720

复制
相关文章
EMR入门学习之HDFS的运维操作(十三)
HDFS是分布式文件系统。HDFS支持fsck命令来检查系统中的各种不一致状况。我们可以使用fsck 来查看当前文件系统的状态。该命令提供了若干选项,不同选项完成不同的功能。
披荆斩棘
2019/11/22
1.3K0
挂载HDFS到本地目录
Hadoop新特性:支持通过NFSv3挂载HDFS文件系统到用户的本地文件目录;也就是说:允许用户像访问本地文件系统一样访问HDFS!这对于普通用户来说大大的简化了HDFS的使用。summer记录下如何将HDFS文件系统挂载到Linux本地中。
summerking
2022/09/16
2.7K0
挂载HDFS到本地目录
Flume采集目录到HDFS
采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去
编程那点事
2023/02/25
2870
HDFS存储空间使用率超过阈值
问题现象:emr控制台“集群监控”-->“集群事件”里会出现“HDFS存储空间使用率持续高于阈值”的告警事件
EMR小助手
2022/08/10
2.1K0
HDFS NN多目录配置
在HDFS中,NN(NameNode)是集群的主控节点,负责维护整个文件系统的命名空间和数据块位置信息。在实际应用中,由于数据量庞大、业务需求多样化等原因,单个目录容易成为性能瓶颈或出现容量限制,因此需要对NN进行多目录配置。
堕落飞鸟
2023/05/12
2330
HDFS——块扫描与目录扫描
在dn整体架构一文中提到了逻辑业务层包括BP管理、块扫描和目录扫描,文本就来聊聊块扫描和目录扫描的大概原理。
陈猿解码
2023/02/28
1.3K0
HDFS——块扫描与目录扫描
HBASE 表在HDFS目录结构
进程按角色分为Master和RegionServer,其中Master负责DDL操作,比如建表、删表,而RegionServer负责DML操作,比如数据的读写操作等。从数据视图上讲,HBase中的Table会按Range切分为多个Region,然后由不同的RegionServer来负责对外提供服务。
大鹅
2020/07/03
2K0
HBASE 表在HDFS目录结构
cefsharp文档在哪_hdfs创建目录
参考:https://github.com/cefsharp/CefSharp/issues/601 https://gist.github.com/BlackBooth/19ce027c4f68c1eb4fc1144988ca6662
全栈程序员站长
2022/10/02
1.3K0
cefsharp文档在哪_hdfs创建目录
NameNode发生full GC优化及建议
问题现象:emr控制台“集群监控”-->“集群事件”里会出现“ NameNode 发生full GC ”的告警事件
EMR小助手
2022/08/04
1.9K0
腾讯警告:你的声音正在被AI「偷走」
近日,腾讯朱雀实验室受邀参加全球顶级信息安全峰会 CanSecWest 2021,并进行了题为《The Risk of AI Abuse: Be Careful with Your Voice(AI 被滥用的风险:小心您的声音安全》的分享。腾讯朱雀实验室分享的最新研究成果表明,VoIP 电话劫持与 AI 语音模拟技术的结合将带来极大潜在风险。
机器之心
2021/04/21
6620
腾讯警告:你的声音正在被AI「偷走」
大数据-Flume采集目录到 HDFS
需求 某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去
cwl_java
2019/12/26
1.1K0
大数据-Flume采集目录到 HDFS
spark遍历hdfs目录下所有文件
2、使用 org.apache.hadoop.fs.FileSystem 类遍历hdfs文件
静谧星空TEL
2021/04/27
3.2K0
spark遍历hdfs目录下所有文件
HBase 在HDFS 上的目录树
自0.96版本之后,hbase 源码结构上做了很大的优化,目录结构也发生了变化,做了精简和优化,这里以0.98.8为例介绍,目录如下:
Dlimeng
2023/06/29
1610
ResourceManager因为块丢失而重启失败
在非HA情况下,如果HDFS中RM-Restart相关的块丢失,会导致RM无法启动。
AAACCC
2019/12/06
1.8K0
namenode进程缺失说明及处理方案
1、在EMR控制台首页,选择“集群服务>HDFS>角色管理”,尝试重启该namenode进程。
EMR小助手
2022/08/10
6320
Hbase在HDFS上的各个目录作用
1、/hbase/.META. 就是存储1中介绍的 META 表的存储路径。 2、/hbase/.archive HBase 在做 Split或者 compact 操作完成之后,会将 HFile 移到.archive 目录中,然后将之前的 hfile 删除掉,该目录由 HMaster 上的一个定时任务定期去清理。 3、/hbase/.corrupt 存储HBase做损坏的日志文件,一般都是为空的。 4、/hbase/.hbck HBase 运维过程中偶尔会遇到元数据不一致的情况,这时候会用到提供的 hbck 工具去修复,修复过程中会使用该目录作为临时过度缓冲。 5、/hbase/WAL 大家都知道 HBase 是支持 WAL(Write Ahead Log) 的,HBase 会在第一次启动之初会给每一台 RegionServer 在.log 下创建一个目录,若客户端如果开启WAL 模式,会先将数据写入一份到.log 下,当 RegionServer crash 或者目录达到一定大小,会开启 replay 模式,类似 MySQL 的 binlog。 6、/hbase/oldlogs 当.logs 文件夹中的 HLog 没用之后会 move 到.oldlogs 中,HMaster 会定期去清理。 7、/hbase/.snapshot hbase若开启了 snapshot 功能之后,对某一个用户表建立一个 snapshot 之后,snapshot 都存储在该目录下,如对表test 做了一个 名为sp_test 的snapshot,就会在/hbase/.snapshot/目录下创建一个sp_test 文件夹,snapshot 之后的所有写入都是记录在这个 snapshot 之上。 8、/hbase/.tmp 当对表做创建或者删除操作的时候,会将表move 到该 tmp 目录下,然后再去做处理操作。 9、/hbase/hbase.id 它是一个文件,存储集群唯一的 cluster id 号,是一个 uuid。 10、/hbase/hbase.version 同样也是一个文件,存储集群的版本号,貌似是加密的,看不到,只能通过web-ui 才能正确显示出来。
shengjk1
2018/10/24
2.8K0
HDFS——如何列出目录下的所有文件
可以用bin/Hadoop fs -ls 来读取HDFS某一目录下的文件列表及属性信息。
星哥玩云
2022/06/30
3.9K0
EMR入门学习之HDFS上的一些常见Shell命令(五)
文件系统(FS)shell包括各种类似shell的命令,这些命令直接与Hadoop分布式文件系统(HDFS)以及Hadoop支持的其他文件系统交互,例如本地FS,HFTP FS,S3 FS等。HDFS文件系统相关操作,主要使用以下2个命令:
披荆斩棘
2019/11/13
1.6K0
MIT发出「算力」警告:深度学习正在逼近计算极限
近日,MIT却发出警告:深度学习正在接近计算极限,必须转变现有技术「大幅」提高计算效率。
新智元
2020/07/21
4270
CISA 发出警告,攻击者正在利用Windows 漏洞
Bleeping Computer 消息称,美国网络安全和基础设施安全局(CISA)在其积极利用漏洞列表中新增三个安全漏洞,其中包括 Windows Print Spooler 中的本地权限提升漏洞。
FB客服
2022/06/08
3870
CISA 发出警告,攻击者正在利用Windows 漏洞

相似问题

跳过EMR副本

10

强制HDFS globStatus跳过它无权访问的目录

15

EMR笔记本存取HDFS

11

作为EMR步骤运行HDFS命令

12

EC2 (永久) HDFS和EMR (瞬时) HDFS如何通信

110
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文