首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用Scrapy创建站点地图

用Scrapy创建站点地图
EN

Stack Overflow用户
提问于 2017-11-07 14:39:27
回答 1查看 1.5K关注 0票数 5

是否可以使用Scrapy生成一个网站的站点地图,包括每个页面的URL及其级别/深度(我需要从主页上跟踪的链接数量)?站点地图的格式不一定是XML,它只是关于信息。此外,我希望保存爬行页面的完整HTML源代码,以供进一步分析,而不是只从其中抓取某些元素。

有经验使用Scrapy的人能告诉我,对于Scrapy来说,这是否是一个可能的/合理的场景,并给我一些关于如何找到指令的提示?到目前为止,我只能找到更复杂的场景,而没有解决这个看似简单的问题的方法。

对有经验的网络爬虫者的评论:考虑到这是可能的,你认为Scrapy甚至是正确的工具吗?或者用请求之类的库来编写自己的爬虫会更容易吗?

EN

回答 1

Stack Overflow用户

发布于 2020-05-24 20:25:34

  • 是的,你可以尝试使用Scrapy的LinkExtractor库。这将帮助您记录网站上所有页面的URL。
  • 完成之后,您可以使用urllib Python库迭代每个页面的URL和源(HTML)。
  • 然后,您可以使用RegEx为每个页面查找在HTML中寻找的任何模式,以便执行您的分析。
票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47160587

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档