我在java程序中使用XPath从HTML页面中抓取值,以获取特定的标记,偶尔还使用正则表达式来清理我收到的数据。
经过一些研究,我发现HTML Cleaner ( http://htmlcleaner.sourceforge.net/ )是将原始的HTML解析成良好的XML格式的最可靠的方法。然而,HTML Cleaner只支持XPath 1.0,我发现自己需要像“包含”这样的函数。例如,在这段XML中:
<div>
<td id='1234 foo 5678'>Hello</td>
</div>
我希望能够使用以下XPath获取文本'Hello‘:
//div/td[contains(@id, 'foo')]/text()
有什么方法可以获得这个功能吗?我有几个想法,但如果不需要的话,我不想重复发明轮子:
简短的问题:有没有办法在现有的Java库中使用XPath中的超文本标记语言?
https://stackoverflow.com/questions/9022140
复制相似问题