首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >比regex更好的系统

比regex更好的系统
EN

Stack Overflow用户
提问于 2012-05-21 01:01:48
回答 1查看 149关注 0票数 3

我已经制作了一个应用程序,可以从特定的网站提取一些特定的信息。为此,我使用了可提供所需输出的正则表达式。对于这个简单的爬虫,还有比正则表达式更高效的进程或想法吗?

EN

回答 1

Stack Overflow用户

发布于 2012-05-21 01:24:02

如果你说它只是一个简单的正则表达式就能解决你的问题,那么没有其他更有效的解决方案了。当涉及到爬行时,另一种选择是将整个html页面加载到内存中的DOM文档中,并使用XPath甚至XQuery进行搜索。但实际上,如果使用正则表达式可以很容易地提取信息,那么就不必费心了,特别是如果您不熟悉XPath的话。

当你想要进行复杂的搜索时,XPath的力量就派上用场了。对于这项任务,它比regex更优雅(至少在W3C的观点中是这样)。但是如果你想要一个快速的解决方案,你已经找到了,而且它在RAM方面也更有效。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10675397

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档