首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >加载到Hadoop之前的文件验证

加载到Hadoop之前的文件验证
EN

Stack Overflow用户
提问于 2013-10-23 20:23:27
回答 1查看 541关注 0票数 0

我有一个输入bz2文件的文件夹,其中一些文件可能已损坏,在运行MR作业之前,我希望删除所有已损坏/无效的bz2文件。什么是好的方法?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-24 03:05:50

使用bzip2 -t测试bzip文件是否损坏。如果它被腐蚀了,我想你可以看到这样的东西。

代码语言:javascript
运行
复制
bzip2: test1.txt: bad magic number (file not created by bzip2)
bzip2: 2: bad magic number (file not created by bzip2)

You can use the `bzip2recover' program to attempt to recover
data from undamaged sections of corrupted files.

因此,如果您的文件位于本地文件系统中,那么使用基于上述要点的shell脚本就可以了。如果您的文件已经在HDFS上,那么使用带有映射器的Hadoop流作为脚本输出损坏的文件,而没有还原器,或者使用还原器删除或发布这些文件。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19551566

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档