一只爬虫的诞生1.0

文章来源：企鹅号 - 廖佩写字的地方

为了兑现之前说要写技术教程的承诺，就有了这篇文章

但是某人其实是个技术渣，所以就从最最最最最简单的开始喽~

工具：Anaconda x.x.x

自带python环境+IDE+各种包，对新手十分友好了！

假装你已经下载安装好了Anaconda，然后打开Spyder：

第一步：分析你的目标网页

举个非常简单的例子，我想把微博影响力排行榜的名字一条一条存下来，但是我不想手动复制粘贴，怎么办？

1.打开浏览器进入目标页面

2.打开开发人员模式（顺便安利一下Win10的Edge，用顺手了觉得超好用der）

3.从源码中定位目标文本

看见了吗？名字被存在了“nk”这个class里面。

这就是线索。

第二步：定制你的爬虫

1.引入requests和BeautifulSoup4

2.向requests提供url，抓取html页面

3.用BeautifulSoup将html文档转为树

4.提供上一步的线索（nk）找到所有目标节点

5.输出目标内容

这样所有的名字都按顺序在控制台输出啦

正常浏览页面是一页显示十个，我加了循环一共遍历了十页，所以一共有100条结果

第三步：我还想一键保存头像

并且要以他们的名字命名图片哦

1.找到头像url

2.用上一步获取的名字生成图片名

3.保存

（涉及文件操作需要引入os模块）

看，头像已经全部下好到你电脑啦！

是不是hin简单！

最后

步骤简单是建立在网页本身比较简单的基础上，实际操作可能会有一些阻碍。

那么就下期2.0再会啦

p.s.

听说有人吐槽我排版差？？？

好好好我认怂，我不是排版差，我是压根就没有排版

按理说图片也应该优化一下大小

然而我根本没有耐心

所以就……就暂时这样吧

发表于: 2018-04-292018-04-29 08:21:43
原文链接：http://kuaibao.qq.com/s/20180429G09IY000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

一只爬虫的诞生1.0

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐