爬取数据的数据库存储——MySQL数据库

写在前面

上期文章,小编和大家聊了一下怎么使用MongoDB数据库去存储python爬取到的数据,本期小编准备再接再厉,接着介绍一下关系型数据库和爬取数据的存储。关系型数据库一直以来都是市场的主流,因此存在众多的关系型数据库管理系统,然而在这众多的数据库管理系统中,小编尤为推荐MySQL这款开源数据库,因此本文将讲解怎么将爬取到的数据存储到MySQL数据库之中,这期爬取的内容小编以豆瓣上面排名前250的书籍信息获取为主,下面正式开始。

MySQL数据库

MySQL是目前最受欢迎的开源关系型数据库系统,因为其完全免费及其便捷的操作方式受到数据工作人士的极大欢迎。如果你以前没有听说过关系型数据库,那么小编建议你还是能够稍稍地去了解一下这些知识,毕竟作为一个大数据时代的人,如果对数据库一点认识都没有的话,就有点说不过去了。下面小编分别介绍一些MySQL数据库的安装、可视化管理工具MySQL workbench的安装以及MySQL与python的打通。

MySQL数据库安装

相对于MongoDB数据库,MySQL数据库的安装步骤稍微多了一些,不过千万不要畏惧,因为这些步骤都是可以采取默认方式安装,下面小编就带大家领略一些MySQL的安装。

打开浏览器,进入MySQL官网(https://www.mysql.com/),选择菜单中的Downloads按钮,进入下载页面,如图所示:

MySQL官网界面

在下载页面中选择Community选项,进入社区版下载页面(这个才是免费的,千万不要去下载成立企业版了);

下载选择页面

在该页面中直接选择其中的DOWNLOAD命令,进入MySQL Community Server下载页面,在该界面的下部分中根据自己的操作系统进行MySQL的下载,这里记得选择MSI installer项进行下载,直接忽略弹出的登陆提示,完成下载;

下载界面

双击下载得到的exe文件进行安装,因为小编的系统上已经安装了MySQL了,这里就不再具体演示MySQL的安装,大家根据界面提示进行安装即可。

在选择安装类型这一步,直接选择Developer Default按钮,然后继续下一步;

设置好软件的安装路径,然后点击下一步;

在这一步安装界面中采取默认就可以,直接点击其中的Execute进行安装;

然后进入到配置界面,在这个界面中设置好自己的MySQL数据库登陆密码,记得一定要记住自己的命名,不然你可进不了数据库;

下面直接按照提示,一直按Next进行默认安装即可,直到完成安装。

因为在MySQL的安装过程中已经开启了数据库服务,因此你不需要像MongoDB那样再进行数据库服务的设置,直接在命令行中输入一下命令进入数据库服务即可。

你也可以直接在开始菜单中找到MySQL的命令行打开,然后输入密码之后进入到数据库系统,通过在命令行中输入以下代码来查看你的数据库系统中存在哪些数据库。

MySQL命令行界面

至此你已经完成了MySQL的安装,不过每次都使用命令行相对有些繁琐,这里推荐一款可视化的管理工具MySQL workbench,听到这个名字你就知道这个绝对是为MySQL而生的,安装的方式特别简单,只需要在谷歌中输入MySQL workbench,然后在其官网中找到MSI installer下载项,随后安装默认的方式进行安装就可以了。在安装完成,第一次打开时,需要输入MySQL数据库的登录名与密码,这些应该都不是难事,界面真的很方便,成功登陆后可以看到界面还是很美观的。

MySQL workbench界面

既然已经安装好MySQL数据库以及可视化管理工具,那么下面就需要将MySQL与python进行打通了,这需要python中的一个第三方库pymysql,对它的安装就如其它python库的安装方式一样,在命令行中输入以下命令即可:

讲到这里相信你已经正确地安装了MySQL以及相关的工具了,至于MySQL的使用,小编这里是不准备讲的,MySQL的语法超级简单,你完全可以在网上找一份教程好好读一下,半天时间就可以上手(这里给大家推荐一本书:福塔的《MySQL必知必会》)下面正式进入实战。

豆瓣书籍top250与MySQL存储

本文准备爬取豆瓣中排名在前250的书籍信息,因为主要是为了演示怎么将爬取到数据存储到MySQL中,因此,这里就不过多爬取书籍信息了,简单的爬取一些书籍名称、作者以及书籍的豆瓣评分。同时考虑到MySQL数据库的数据存储需要预先定义数据表以及设置数据表字段,这里小编首先在MySQL workbench中通过以下命令去新建立一个用来存储书籍信息的表。

然后你就可以在MySQL workbench的左边数据表列表中看到新生成的数据表了,下面开始将抓取的数据存入其中。

创建数据表

存储结果

后记

本文讲到这里就暂告一段落了,本期文章和大家聊了一下怎么使用python获取豆瓣书籍top250的数据,并将其存放入MySQL数据之中。MySQL数据库作为关系型数据库中的优秀代表,其对数据的存放及提取都异常方便,因此很有必要掌握这种数据库的操作,并且掌握其与python的联动。以后小编获得的很多数据也将采用这些数据库方式进行存储,所以希望你们能够习惯这种存储方式。最后再次感谢你们的支持与鼓励,你们的陪伴是小编前进的动力!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180831G1UKLI00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券