我已经制作了一个应用程序,可以从特定的网站提取一些特定的信息。为此,我使用了可提供所需输出的正则表达式。对于这个简单的爬虫,还有比正则表达式更高效的进程或想法吗?
发布于 2012-05-21 01:24:02
如果你说它只是一个简单的正则表达式就能解决你的问题,那么没有其他更有效的解决方案了。当涉及到爬行时,另一种选择是将整个html页面加载到内存中的DOM文档中,并使用XPath甚至XQuery进行搜索。但实际上,如果使用正则表达式可以很容易地提取信息,那么就不必费心了,特别是如果您不熟悉XPath的话。
当你想要进行复杂的搜索时,XPath的力量就派上用场了。对于这项任务,它比regex更优雅(至少在W3C的观点中是这样)。但是如果你想要一个快速的解决方案,你已经找到了,而且它在RAM方面也更有效。
https://stackoverflow.com/questions/10675397
复制相似问题