python、scrapy和pycharm已经安装好,并且python和scrapy环境已经配置好。scrapy安装比较简单的方法是通过pycharm IDE进行安装。
命令行输入:scrapy startproject object_name
object_name是目标项目的名称。
此命令生成的目录结构如下:
接下来,在spiders文件夹下面创建.py文件,我们的爬虫代码就写在这个文件里面。可以直接在Pycharm里面创建,也可以通过命令行创建。
genspider命令:scrapy genspider spider_name url
spider_name 是spider的名字,url是要爬取的网站。
通过命令行创建后,文件中会自动生成相关代码:
运行spider: 命令行>>scrapy crawl spider_name
工程创建好后会自动生成一个items.py文件,我们只需要在这个文件中定义自己的item。
比如我需要爬取标题、链接和描述,则可以这样定义item: