我想知道如何处理包含多个拆分的Xml文件。谁负责将Xml元素的开始标记和结束标记放在同一个拆分中?是XmlInputFormat的责任还是在HDFS上创建Xml文件的程序的责任?
最好的,泡菜
发布于 2014-11-16 06:58:26
XMLInputFormat要求您分别使用xmlinput.start和xmlinput.end指定开始标记和结束标记。一旦为XMLInputForamt指定了开始和结束标记,XMLInputForamt的RecordReader就能够确定记录边界。
作为参考,请看一下XMLInputFormat的代码。
因此,在HDFS中创建XML文件的程序不必执行任何操作。
https://stackoverflow.com/questions/26943914
复制相似问题