今天来讲解在scrapy框架爬虫里怎么来操作MySQL数据库来存储我们爬取的数据。为了让读者更好的掌握一个完整项目开发的全过程,今天笔者将从创建一个爬虫项目开始到爬取数据并且将数据存储到MySQL数据库中。今天的实验环境是在pycharm软件中进行开发的,今天的话题是爬取韦玮老师的博客信息,我们要爬取文章的标题、链接和作者的具体信息。
出现上述内容代表已创建成功,其项目文件夹以及文件如下图所示:
2.创建一个爬虫文件(名字自定义为:mysqlspider):如下图所示:
此时,爬虫文件已创建成功。3.在items.py文件中自定义要提取内容的结构,如下图所示:
4.在爬虫文件mysqlspider.py中编写爬取网页信息的代码,如下图所示:注意:中文注释的地方就是要自己定义的地方,我们要爬取的网页是:http://blog.sina.com.cn/rss/1615888477.xml
5.在settings.py文件中开启管道文件pipelines.py的使用:
先在settings.py中找到如下代码:然后将管道文件的注释去掉,如下图所示,管道文件已开启了:6.创建一个mysql_table.py的文件,主要是为了方便管理数据库的,以后更新数据、删除数据就在这个文件中操作,在这个文件中只需要创建数据库的表格就可以了。
运行就可以在数据库里看到data的表格了。7.存储数据都是在pipelines.py文件中编写代码实现的,
在scrapy框架中操作MySQL数据库来存储数据,一个完整的开发项目
D:.PCshizhanmysql_scrapymysql_scrapy>scrapycrawlmysqlspider--nolog数据已经存储到MySQL数据库的data表格之中了。
领取专属 10元无门槛券
私享最新 技术干货