首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >在Java中对HTML使用XPath Contains

在Java中对HTML使用XPath Contains
EN

Stack Overflow用户
提问于 2012-01-27 01:07:13
回答 1查看 26.2K关注 0票数 21

我在java程序中使用XPath从HTML页面中抓取值,以获取特定的标记,偶尔还使用正则表达式来清理我收到的数据。

经过一些研究,我发现HTML Cleaner ( http://htmlcleaner.sourceforge.net/ )是将原始的HTML解析成良好的XML格式的最可靠的方法。然而,HTML Cleaner只支持XPath 1.0,我发现自己需要像“包含”这样的函数。例如,在这段XML中:

代码语言:javascript
复制
<div>
  <td id='1234 foo 5678'>Hello</td>
</div>

我希望能够使用以下XPath获取文本'Hello‘:

代码语言:javascript
复制
//div/td[contains(@id, 'foo')]/text()

有什么方法可以获得这个功能吗?我有几个想法,但如果不需要的话,我不想重复发明轮子:

  • 如果有一种方法可以调用HTML Cleaner的evaluateXPath并返回TagNode (我还没有找到),我可以在返回的TagNode上使用XPaths序列化程序并将它们链接在一起以实现所需的XPath可以使用HTML Cleaner清理到XML,将其序列化为字符串,并将其与另一个XPath库一起使用,但我找不到一个好的java XPath求值器来处理字符串。
  • 使用TagNode函数,例如getElementsByAttValue,我基本上可以使用java重新创建XPath计算,并使用java在包含功能中使用String.contains

简短的问题:有没有办法在现有的Java库中使用XPath中的超文本标记语言?

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9022140

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档