是否可以使用Scrapy生成一个网站的站点地图,包括每个页面的URL及其级别/深度(我需要从主页上跟踪的链接数量)?站点地图的格式不一定是XML,它只是关于信息。此外,我希望保存爬行页面的完整HTML源代码,以供进一步分析,而不是只从其中抓取某些元素。
有经验使用Scrapy的人能告诉我,对于Scrapy来说,这是否是一个可能的/合理的场景,并给我一些关于如何找到指令的提示?到目前为止,我只能找到更复杂的场景,而没有解决这个看似简单的问题的方法。
对有经验的网络爬虫者的评论:考虑到这是可能的,你认为Scrapy甚至是正确的工具吗?或者用请求之类的库来编写自己的爬虫会更容易吗?
发布于 2020-05-24 20:25:34
https://stackoverflow.com/questions/47160587
复制相似问题