我在java程序中使用XPath从HTML页面中抓取值,以获取特定的标记,偶尔还使用正则表达式来清理我收到的数据。
经过一些研究,我发现HTML Cleaner ( http://htmlcleaner.sourceforge.net/ )是将原始的HTML解析成良好的XML格式的最可靠的方法。然而,HTML Cleaner只支持XPath 1.0,我发现自己需要像“包含”这样的函数。例如,在这段XML中:
<div>
<td id='1234 foo 5678'>Hello</td>
</div>
我希望能够使用以下XPath获取文本'Hello‘:
//div/td[contains(@id, 'foo')]/text()
有什么方法可以获得这个功能吗?我有几个想法,但如果不需要的话,我不想重复发明轮子:
简短的问题:有没有办法在现有的Java库中使用XPath中的超文本标记语言?
发布于 2012-01-27 01:24:50
关于这一点:
我可以使用HTML Cleaner清理成
,将其序列化为字符串,并将其与另一个XPath库一起使用,但我找不到一个好的XPath求值器来处理字符串。
这正是我要做的(除非你不需要对字符串进行操作(见下文))。
很多超文本标记语言的解析器都试图做太多的。例如,HTMLCleaner没有正确/完全地实现XPath 1.0规范(例如,contains
就是an XPath 1.0 function)。好消息是你不需要这样做。您所需要的就是让HTMLCleaner解析格式错误的输入。完成此操作后,最好使用标准的XML接口来处理生成的(现在格式良好的)文档。
首先将文档转换为标准org.w3c.dom.Document
,如下所示:
TagNode tagNode = new HtmlCleaner().clean(
"<div><table><td id='1234 foo 5678'>Hello</td>");
org.w3c.dom.Document doc = new DomSerializer(
new CleanerProperties()).createDOM(tagNode);
然后使用标准JAXP接口来查询它:
XPath xpath = XPathFactory.newInstance().newXPath();
String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()",
doc, XPathConstants.STRING);
System.out.println(str);
输出:
Hello
https://stackoverflow.com/questions/9022140
复制相似问题