爬虫数据的数据库存储——MongoDB数据库

写在前面

关于python网络爬虫,小编在前面已经讲解了两期,分别讲述了多页面爬虫和跨页面爬虫的实现方式。同时在那两期文章中,小编都是采用Excel作为存储数据的方式,然而当面临较大的数据存储需求时,Excel相对来说缺乏效率,因此本期文章,小编将介绍怎么将python爬取下来的数据存放在数据库之中。从现有使用程度来讲,数据库主要分为关系型数据库以及非关系型数据库,所以小编会分两期对这两种数据库的存储予以介绍。在关系型数据库方面,小编将重点介绍MySQL;而在非关系型数据库方面,小编将以MongoDB为主。本期文章先来介绍一下怎么将python爬取下来的数据存储到MongoDB数据库之中。同时文章以爬取豆瓣电影中排名前250的影片信息为例进行讲解,下面正式开始。

MongoDB数据库

MongoDB是一种非关系型数据库,数据的存储基本单元为文档,因为其存储数据的方式以键值对(也就是python中的字典)的形式展开,因此这种数据库非常便于python数据存储。下面简单介绍一下MongoDB的安装与使用,更加详细的操作可以参看相关书籍及网上的专门教程。

MongoDB作为一种开源的数据库系统,它的安装可以说比较简单,一般来说通过8步就可以正常使用这种高效的数据库了。

打开浏览器,进入MongoDB官网(https://www.mongodb.com),单击右上角的Get MongoDB按钮,进入下载页,如下图所示:

MongoDB官网界面

在下载页面中点击Community Server,进入社区版的下载页面,然后根据你的操作系统的具体情况进行相应版本的下载,如下图所示:

MongoDB下载页面

双击下载的exe文件进行安装(这里以win7系统为例,其它系统请根据系统的软件安装方式进行安装),在安装界面中选择自定义安装,因为小编系统上已经安装了这个数据库,这里就不再具体演示安装的界面了,简单地说一下步骤。

在自定义安装中选择MongoDB的安装路径(这个一定要记清楚,下面有用处),然后按照默认方式进行直到安装完成。

安装完成之后需要给MongoDB指定数据存储的位置,因此打开MongoDB安装的路径,然后在该路径下创建一个名为data的文件夹,而后在此文件夹下创建一个名为db的文件夹,这个db文件夹就是用来存储MongoDB的数据的,如下所示:

MongoDB数据存储位置

设置文件。进入MongoDB的安装路径,然后进入到bin文件夹下,按住shift键的同时鼠标右击,在弹出的菜单中选择“在此处打开命令行窗口”命令。

在命令行窗口中输入以下命令,完成数据库文件配置,从而启动MongoDB服务。

在bin文件夹下再次打开命令行窗口(注意是再打开一个,前一个不要关闭),然后在命令行中输入命令,便可以链接到数据库了,如下所示:

命令行输出结果

Robot 3T界面

既然MongoDB以及相应的可视化管理工具已经正确安装,那么接下来自然是需要实现MongoDB和python之间的打通,这就需要在python中安装pymongo这个第三方工具库,命令行窗口中使用以下命令进行pymongo的安装。

现在你已完成了一切准备,下面就可以使用python和MongoDB去存储你爬取到的数据,关于MongoDB的使用可以参考网上的教程,下面直接讲解使用步骤。

爬取豆瓣电影top250数据并存入mongodb

终于要到激动人心的时刻了,这里小编就不再过多阐述了,直接上程序。

程序中没有什麼新的命令,唯一多出的一些就是操作数据库以及插入数据库的函数,不过正如其名字显示的那样,所以这里就不再过多讲解。

MongoDB存储结果

后记

本文讲到这里就暂告一段落了,本期文章和大家聊了一下怎么使用python获取豆瓣电影top250的数据,并将其存放入MongoDB数据库之中。MongoDB作为非关系型数据库中的优秀代表,其对数据的存放及提取都异常方便,因此很有必要掌握这种数据库的操作,并且掌握其与python的联动。后面小编会介绍一下python和关系型数据MySQL的联动,敬请期待。最后再次感谢你们的支持与鼓励,你们的陪伴是小编前进的动力!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180827G1R4AS00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券