首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一只爬虫的诞生1.0

为了兑现之前说要写技术教程的承诺,就有了这篇文章

但是某人其实是个技术渣,所以就从最最最最最简单的开始喽~

工具:Anaconda x.x.x

自带python环境+IDE+各种包,对新手十分友好了!

假装你已经下载安装好了Anaconda,然后打开Spyder:

第一步:分析你的目标网页

举个非常简单的例子,我想把微博影响力排行榜的名字一条一条存下来,但是我不想手动复制粘贴,怎么办?

1.打开浏览器进入目标页面

2.打开开发人员模式(顺便安利一下Win10的Edge,用顺手了觉得超好用der)

3.从源码中定位目标文本

看见了吗?名字被存在了“nk”这个class里面。

这就是线索。

第二步:定制你的爬虫

1.引入requests和BeautifulSoup4

2.向requests提供url,抓取html页面

3.用BeautifulSoup将html文档转为树

4.提供上一步的线索(nk)找到所有目标节点

5.输出目标内容

这样所有的名字都按顺序在控制台输出啦

正常浏览页面是一页显示十个,我加了循环一共遍历了十页,所以一共有100条结果

第三步:我还想一键保存头像

并且要以他们的名字命名图片哦

1.找到头像url

2.用上一步获取的名字生成图片名

3.保存

(涉及文件操作需要引入os模块)

看,头像已经全部下好到你电脑啦!

是不是hin简单!

最后

步骤简单是建立在网页本身比较简单的基础上,实际操作可能会有一些阻碍。

那么就下期2.0再会啦

p.s.

听说有人吐槽我排版差???

好好好我认怂,我不是排版差,我是压根就没有排版

按理说图片也应该优化一下大小

然而我根本没有耐心

所以就……就暂时这样吧

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180429G09IY000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券