首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

002:Python爬虫Urllib库全面分析

Python中有一个功能强大,用于操作URL,并且在爬虫中经常使用的库、就是Urllib库。 (在python2的时候,有Urllib库,也有Urllib2库。Python3以后把Urllib2合并到了Urllib中) 合并后,模块中有很多的位置变动。我在这里先介绍一些常用的改动。 Python2: import urllib2 >>>>>Python3:import urllib.request,urllib.error Python2:import urllib >>>>>Python3:import urllib.request,urllib.error,urllib.parse Python2:import urlparse >>>>>Python3:import urllib.parse Python2:urllib2.urlopen >>>>>Python3:urllib.request.urlopen Python2:urllib.urlencode >>>>>Python3:urllib.request.urlencode Python2:urllib.quote >>>>>Python3:urllib.request.quote Python2:cookielib.CookieJar >>>>>Python3:http.CookieJar Python2:urllib.Request >>>>>Python3:urllib.request.Request 以上是Urllib中常用命令的一些变动。如果之前没有Urllib的基础也没关系,本文后面会详细介绍这些代码的具体应用,以及其实现的各种功能。

01

一、爬虫的基本体系和urllib的基本使用 先进行一个简单的实例:利用有道翻译(post请求)另外一个简单的小实例是:豆瓣网剧情片排名前20的电影(Ajax请求)

爬虫   网络是一爬虫种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。 爬虫的分类   传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。   聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略

04
领券