如果我们有多个具有不同html结构的站点,那么有什么更好的方法来实现scrapy呢?
发布于 2016-01-05 05:10:30
通常你应该在一个项目中创建多个蜘蛛,每个网站一个,但这取决于这一点。
抓取爬行器还决定如何从一个页面跳到另一个页面,而不是应用解析器回调,解析器回调方法将从页面中提取数据。因为页面是不一样的,所以每个页面都需要一个解析器回调方法。
这些网站通常有不同的网站地图,因此你需要多个蜘蛛,每个网站,这将决定如何跳到另一页。另外,蜘蛛将应用它们的回调来决定如何刮掉该页。
通常,您不需要为多个网站创建多个项目,但这取决于此。如果您的网站具有一些逻辑特性,请将它们放在一个项目中,以便它们可以使用相同的刮伤设置。这样做也更容易,您可以创建基本蜘蛛并继承常用的方法。
发布于 2016-01-05 05:01:31
callback
https://stackoverflow.com/questions/34611880
复制