在scrapy框架中操作MySQL数据库来存储数据,一个完整的开发项目

今天来讲解在scrapy框架爬虫里怎么来操作MySQL数据库来存储我们爬取的数据。为了让读者更好的掌握一个完整项目开发的全过程,今天笔者将从创建一个爬虫项目开始到爬取数据并且将数据存储到MySQL数据库中。今天的实验环境是在pycharm软件中进行开发的,今天的话题是爬取韦玮老师的博客信息,我们要爬取文章的标题、链接和作者的具体信息。

出现上述内容代表已创建成功,其项目文件夹以及文件如下图所示:

2.创建一个爬虫文件(名字自定义为:mysqlspider):如下图所示:

此时,爬虫文件已创建成功。3.在items.py文件中自定义要提取内容的结构,如下图所示:

4.在爬虫文件mysqlspider.py中编写爬取网页信息的代码,如下图所示:注意:中文注释的地方就是要自己定义的地方,我们要爬取的网页是:http://blog.sina.com.cn/rss/1615888477.xml

5.在settings.py文件中开启管道文件pipelines.py的使用:

先在settings.py中找到如下代码:然后将管道文件的注释去掉,如下图所示,管道文件已开启了:6.创建一个mysql_table.py的文件,主要是为了方便管理数据库的,以后更新数据、删除数据就在这个文件中操作,在这个文件中只需要创建数据库的表格就可以了。

运行就可以在数据库里看到data的表格了。7.存储数据都是在pipelines.py文件中编写代码实现的,

在scrapy框架中操作MySQL数据库来存储数据,一个完整的开发项目

D:.PCshizhanmysql_scrapymysql_scrapy>scrapycrawlmysqlspider--nolog数据已经存储到MySQL数据库的data表格之中了。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181028A0S82500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券