问在Java中对HTML使用XPath Contains
EN

Stack Overflow用户

提问于 2012-01-27 01:07:13

回答 1查看 26.2K关注 0票数 21

我在java程序中使用XPath从HTML页面中抓取值，以获取特定的标记，偶尔还使用正则表达式来清理我收到的数据。

经过一些研究，我发现HTML Cleaner ( http://htmlcleaner.sourceforge.net/ )是将原始的HTML解析成良好的XML格式的最可靠的方法。然而，HTML Cleaner只支持XPath 1.0，我发现自己需要像“包含”这样的函数。例如，在这段XML中：

<div>
  <td id='1234 foo 5678'>Hello</td>
</div>

我希望能够使用以下XPath获取文本'Hello‘：

//div/td[contains(@id, 'foo')]/text()

有什么方法可以获得这个功能吗？我有几个想法，但如果不需要的话，我不想重复发明轮子：

如果有一种方法可以调用HTML Cleaner的evaluateXPath并返回TagNode (我还没有找到)，我可以在返回的TagNode上使用XPaths序列化程序并将它们链接在一起以实现所需的XPath可以使用HTML Cleaner清理到XML，将其序列化为字符串，并将其与另一个XPath库一起使用，但我找不到一个好的java XPath求值器来处理字符串。
使用TagNode函数，例如getElementsByAttValue，我基本上可以使用java重新创建XPath计算，并使用java在包含功能中使用String.contains

简短的问题:有没有办法在现有的Java库中使用XPath中的超文本标记语言？

java

xpath

html-parsing

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-01-27 01:24:50

关于这一点：

我可以使用HTML Cleaner清理成

，将其序列化为字符串，并将其与另一个XPath库一起使用，但我找不到一个好的XPath求值器来处理字符串。

这正是我要做的(除非你不需要对字符串进行操作(见下文))。

很多超文本标记语言的解析器都试图做太多的。例如，HTMLCleaner没有正确/完全地实现XPath 1.0规范(例如，contains就是an XPath 1.0 function)。好消息是你不需要这样做。您所需要的就是让HTMLCleaner解析格式错误的输入。完成此操作后，最好使用标准的XML接口来处理生成的(现在格式良好的)文档。

首先将文档转换为标准org.w3c.dom.Document，如下所示：

TagNode tagNode = new HtmlCleaner().clean(
        "<div><table><td id='1234 foo 5678'>Hello</td>");
org.w3c.dom.Document doc = new DomSerializer(
        new CleanerProperties()).createDOM(tagNode);

然后使用标准JAXP接口来查询它：

XPath xpath = XPathFactory.newInstance().newXPath();
String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()", 
                       doc, XPathConstants.STRING);
System.out.println(str);

输出：

Hello

票数 35

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9022140

复制

相似问题

问在Java中对HTML使用XPath Contains
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Java中对HTML使用XPath ContainsEN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Java中对HTML使用XPath Contains
EN