首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python练习-简单爬虫

一入“程”门深四海......

有学习就得有练习,我来练一个文本爬虫,代码直接写到下面,抓取的是网页图片,简单好学,适合新手练习。

话不多说直接上干货!

1. 目标网址:https://www.jikexueyuan.com

2. 准备工具

Python2.7

PyCharm5.3

这两个软件Python版本我目前用的是版本2,还没有使用3版本,因为知道这是有个别改动,相信把版本2学好了,升级到3没有多大问题,PyCharm下载的时候也要对应Python的版本下载,具体下载新手请找度娘。

3.上面两个下载好了还要下载一个Requests来获取网页,这是需要导入的一个第三方

4.开始编程

在编程开始之前展示一下抓取结果,这些就是在极客学院上面抓取的教学图片。

5. 分解步骤:

1)打开极客学院网址,选择课程库

2)右击审核元素,这可以直接看到对应的图片地址;点击Elements的放大镜,将鼠标移动到图片上面,下面会出现图片对应的地址(深颜色),可以看到一个词:Class=”lessonplay”

3) 将PyCharm打开,新建一个文件夹,取名pachong,里面建一个picdownloader.py的文件;建一个source.txt文件;在建一个pic文件夹。

4)打开网页的源代码,将查找到的所有(class=”lessonplay”)复制粘贴到source.txt文件里面。

5)开始编程

将会看到下面测试出来图片匹配的数字是24个,也就是说我们爬取的网页当前页有24张图片。

最后欢迎大佬指导改正意见~~

- THE END -

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180321G1UUE800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券