首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何最好地开发网络爬虫

如何最好地开发网络爬虫
EN

Stack Overflow用户
提问于 2009-02-07 02:15:36
回答 2查看 3K关注 0票数 3

我习惯于创建一些爬虫来编译信息,当我来到一个网站,我需要的信息我开始一个新的爬虫专门为该网站,使用外壳脚本大部分时间,有时PHP。

我这样做的方式是用一个简单的for来迭代页面列表,一个wget下载它,sedtrawk或其他实用程序来清理页面,并获取我需要的特定信息。

所有的过程都需要一些时间,根据网站的不同,下载所有页面的时间更长。我经常踏入一个会使一切变得复杂的AJAX站点

我想知道是否有更好的方法来做到这一点,更快的方法,甚至一些应用程序或语言来帮助这类工作。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-02-07 02:27:17

使用正则表达式解析内容是一个坏主意,在这里已经被无数次的问题所覆盖。

您应该将文档解析为DOM树,然后您可以提取所需的任何超链接、样式表、脚本文件、图像或其他外部链接,并相应地遍历它们。

许多脚本语言都有用于获取Web页面(例如PHP的curl )和解析HTML (例如Python的Beautiful Soup )的包。走这条路,而不是老生常谈的正则表达式匹配解决方案。

票数 6
EN

Stack Overflow用户

发布于 2010-04-05 11:44:06

如果你使用python,Scrapy很好用。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/522975

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档