我目前使用作为我的网络爬虫的选择,我试图自学网络爬虫是如何工作的。我已经开始爬行了,我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的数据
public class Controller {
public static void main(String[] args) throws Exception {
/*
* crawlStorageFolder is a folder where intermediate crawl data is
我想要将爬虫的所有下载图像保存在一个特定的文件夹中,这样我就可以在同一个项目中同时运行多个爬虫,而不会在一个文件夹中有多个爬虫的所有图像。 img文件夹目标在设置中定义: project_dir = os.path.dirname(__file__)+'/../' #<-- absolute dir the script is in
IMAGES_STORE = project_dir+"images" 我的爬行器在spidername.py中有一个类似这样的类: class GetbidSpider(CrawlSpider):
name = &