问比regex更好的系统
EN

Stack Overflow用户

提问于 2012-05-21 01:01:48

回答 1查看 149关注 0票数 3

我已经制作了一个应用程序，可以从特定的网站提取一些特定的信息。为此，我使用了可提供所需输出的正则表达式。对于这个简单的爬虫，还有比正则表达式更高效的进程或想法吗？

java

web-crawler

回答 1

Stack Overflow用户

发布于 2012-05-21 01:24:02

如果你说它只是一个简单的正则表达式就能解决你的问题，那么没有其他更有效的解决方案了。当涉及到爬行时，另一种选择是将整个html页面加载到内存中的DOM文档中，并使用XPath甚至XQuery进行搜索。但实际上，如果使用正则表达式可以很容易地提取信息，那么就不必费心了，特别是如果您不熟悉XPath的话。

当你想要进行复杂的搜索时，XPath的力量就派上用场了。对于这项任务，它比regex更优雅(至少在W3C的观点中是这样)。但是如果你想要一个快速的解决方案，你已经找到了，而且它在RAM方面也更有效。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10675397

复制

相似问题

问比regex更好的系统
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问比regex更好的系统EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问比regex更好的系统
EN