Python网络爬虫与信息抽取笔记06 爬虫实战2

【导读】我们在上一节的内容中已经为大家对爬虫实践进行讨论,这一节将继续实践剩下的例子。本文内容讨论了实战爬虫的两个例子:网络图片的爬取和存储以及IP地址归属地的自动查询。话不多说,让我们一起学习这些内容吧。

春节充电系列:李宏毅2017机器学习课程学习全部笔记

Python网络爬虫与信息抽取笔记01 课程框架和Python IDE工具

Python网络爬虫与信息抽取笔记02 requests库入门

Python网络爬虫与信息抽取笔记03 HTTP协议介绍

Python网络爬虫与信息抽取笔记04 Robots协议

Python网络爬虫与信息抽取笔记05 爬虫实战1

视频网址:

https://www.bilibili.com/video/av9784617?from=search&seid=240663710546169136

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001

Python网络爬虫与信息抽取06 爬虫实战2

1.网络图片的爬取和存储



先讨论网络图片的爬取与存储

我们要先明白网络图片链接的格式是什么样子的

比如我们将爬取这个网址

http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg

先用指令爬取网址

因为图片是二进制网址,所以使用r.content

图片就会保存在D://abc.jpg中

图片爬取的全代码如下

2.IP地址归属地的自动查询



接下来试一试IP地址归属地的自动查询

我们可以在www.ip138.com这个网址进行查询

如果想用爬虫的形式爬取的话,就是如下网址

将网址填入爬虫指令

发现返回码为200,说明爬取成功

然后看服务器响应字符串的倒数500个字符

IP地址查询的全代码如下

目前我们已经会爬取网址进行简单的任务了,从下节开始我们介绍Beautiful Soup库

参考链接:

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001

更多教程资料请访问:人工智能知识资料全集

-END-

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-05-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磨磨谈

预估ceph的迁移数据量

我们在进行 ceph 的 osd 的增加和减少的维护的时候,会碰到迁移数据,但是我们平时会怎么去回答关于迁移数据量的问题,一般来说,都是说很多,或者说根据环境来...

14420
来自专栏Golang语言社区

一致性hash算法原理及golang实现

这里存在一种场景, 当一个缓存服务由多个服务器组共同提供时, key应该路由到哪一个服务.这里假如采用最通用的方式key%N(N为服务器数目), 这里乍一看没什...

18320
来自专栏机器学习从入门到成神

2015百度校招笔试真题以及解析(一)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/articl...

21910
来自专栏Android自学

PHP Web 木马扫描器

2K50
来自专栏计算机视觉

为stackGan一个工程创建一个虚拟环境,python 2.7 tensorflow0.12-tensorflow 1.01

安装conda 下载地址:https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64...

365100
来自专栏一枝花算不算浪漫

集群扩容的常规解决:一致性hash算法

20220
来自专栏WOLFRAM

传说中的供需模型

12420
来自专栏数据和云

Oracle在12.1.0.2开始改变了补丁策略

ORACLE数据库提供两种方式的补丁,一种是主动的Proactive Patches,另一种被动的Reactive Patches,过去的PSU,SPU/CPU...

36450
来自专栏GIS讲堂

js+css实现模态层效果

在做web前端的时候,有些时候会涉及到模态层,在此提供一种实现思路,希望对大家有用。先贴效果吧:

47840
来自专栏软件开发 -- 分享 互助 成长

计算机系统可靠性的计算

计算机系统的可靠性是制从它开始运行(t=0)到某时刻t这段时间内能正常运行的概率,用R(t)表示。 失效率是指单位时间内失效的元件数与元件总数的比例,以λ表示。...

19190

扫码关注云+社区

领取腾讯云代金券