首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫-扒一扒百度贴吧里的email并保存到MySQL

作者丨zckun

https://www.jianshu.com/p/9ffa1f7a4bcf

昨晚闲得蛋疼,看了看MySQL的文档,人生第一次用mysql,看了一会儿发现,我操,这么简单,然后就瞎瘠薄搞了搞,今天下午就想写点东西,打开了铁把就想到之前看别人视频写的爬贴吧email,个人觉得写的不好,自己正好没事干,就顺手写了个爬虫,顺带保存到MySQL,开搞把。

国际惯例,先上图 (:

还是看看数据把...输入命令

结果:

一共761条,看起来还不错,当然还是有些不正确的邮箱,代码在这https://github.com/ZCKun/CCCoding

或者直接wget https://raw.githubusercontent.com/ZCKun/CCCoding/master/tieba_email.py下载到本地

说一下要用到的模块

requests

re

pymysql

可能有些刚入这行伙计没接触过MySQL,我就在这简单的说下如何安装和配置,我只有一台装了debian的机器,linux下操作都一样,mac应该也查不了多少,win的话可以百度

首先安装MySQL到你的机器上

这是官网:

https://www.mysql.com/

下载地址:

https://www.mysql.com/downloads/

社区版本下载地址:

https://dev.mysql.com/downloads/mysql/

考虑到有些人像我当年一样没电脑只有一部android手机也写了几个月的代码的情况下,在这里我也说下如何用手机安装MySQL(mariadb),请确认你的手机是android并且版本在5.x以上最好6.x

首先在你手机安装一个软件-termux,你可以百度或者去google play下载

安装好了打开后看到熟悉的终端,输入 apt update && apt upgrade

然后开始安装mariadb(mysql的那啥。。。) apt-get install mariadb

安装好了之后 输入 mysqld 开启服务

然后另开一个窗口输入 mysql 出错。。内心懵逼啊, 我这特么不是装好了么

别慌,termux上安装mariadb时不会要你设置密码,但是我们有办法

输入 mysqladmin -u root password “你的密码” 这样就设置了你的root用户的密码了

然后输入 mysql -u root -p 回车,要求输入密码,填写你刚刚设置的密码就ok了

然后开始配置用户的host,以便于你在电脑/手机上可以方便的用python连接,我这里用电脑示范,确保你手机后台在运行服务,在你的计算机上登录你手机上的mariadb时可以用 mysql -h host -P port -u user -p 这里的host是指你手机的ip(局域网的),port端口mysql/mariadb默认是3306,user就是登录的用户

在你登录成功后,出现如下界面:

手机上:

之后输入的命令啥的都一样,我就不再一一截图了。。。

输入 SHOW DATABASES; 或者 show databases; 查看有哪些数据库

可能和我的不一样,很正常,你只要确认有mysql这个数据库就可以了

接着输入 USE mysql 或 use mysql 相当于进入该数据库

看到和我的提示差不多一样就没毛病

你可以用 SHOW TABLES; 查看有哪些数据表,但是我这里就不瞎弄了

在这里我们新建一个用户,并让其他机器可以连接到来方便我们开发

输入 INSERT INTO user (Host, User, Password) VALUES ("%", "用户名", "密码");

解释一下“%”这玩意儿,如果你想让别处的机器也可以连接当前数据库的话,就这样写,“%”是MySQL里的通配符

如过用上面的命令出错了,那么你还是。。。。。。。别慌,我有办法

输入 CREATE USER "用户名"@"%" IDENTIFIED BY "密码";

但是这还不够,接着先为刚刚创建的用户新建一个数据库,比如叫:testDB

输入 CREATE DATABASE testDB;

然后给它这个数据库的所有权限,接着输入

GRANT ALL PRIVILEGES ON testDB.* TO "刚刚创建的用户名"@"%" IDENTIFIED BY "密码";

创建完了,然后检查一下是否成功,输入

SELECT Host, User, Password, Select_priv, Insert_priv, Update_priv, Create_priv FROM user WHERE User = "你刚刚创建的用户名";

出现如上图显示有东西就是创建成功,password是经过加密的,还有一点忘说了,这操作只能在root用户下才可以

linux的直接 sudo apt-get install mysql-server 就搞定了,当然不闲麻烦的去官网下载

在安装期间会要求你设置root密码,这是mysql的root用户密码,最好别忘记

在Windows上,安装时请选择UTF-8编码,以便正确地处理中文。

在Mac或Linux上,需要编辑MySQL的配置文件,把数据库默认的编码全部改为UTF-8。MySQL的配置文件默认存放在/etc/my.cnf或者/etc/mysql/my.cnf:

[client]

default-character-set = utf8

[mysqld]

default-storage-engine = INNODB

character-set-server = utf8

collation-server = utf8_general_ci

然后一切妥了,测试是否安装成功,终端下输入 mysql -u root -p 然后会车输入你的root密码,出现这样的界面就是ok了

对了,忘了创建数据表了,,,

输入 CREATE TABLE email (email VARCHAR(30));

这里第一个email是数据表的名称,第二个email是列的名称,30的意思就是限制大小30字符以内,不一定要用VARCHAR,你也可以用CHAR、DATA来表示,主要看你要存啥东西

终于开始讲爬虫了,码了一个多小时的字。。。

本次的目标网址http://tieba.baidu.com/p/5178628955?pid=108443531615&cid=0#108443531615,我们得到他"?"前面的那串数字就可以了

一共13页,思路来了

1、获取爬取的帖子的页数,然后生成链接列表

2、迭代链接列表请求,之后解析

3、连接mysql数据库,然后存储

代码我就不写了,直接贴图上来

获取帖子页码

连接数据库并保存

详细代码可以在这里看到

https://github.com/ZCKun/CCCoding

文章质量可能很烂,不过还是比较详细( 个人感觉 (: )

推荐↓↓↓

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181221B1APN100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券