Python网络爬虫(二)- urllib爬虫案例 urllib的爬虫案例-通过最原始的爬虫方式

urllib的爬虫案例-通过最原始的爬虫方式

爬虫之前如果抓包工具Fiddler证书安装失败,采用以下方法

1、打开cmd 2、进入fillder的目录 如下: 里面的路径改成你自己的安装路径 cd /d "D:\Program Files (x86)\Fiddler2" 然后再执行下面命令 makecert.exe -r -ss my -n "CN=DO_NOT_TRUST_FiddlerRoot, O=DO_NOT_TRUST, OU=Created by http://www.fiddler2.com" -sky signature -eku 1.3.6.1.5.5.7.3.1 -h 1 -cy authority -a sha1 -m 120 -b 09/05/2012 下面提共一个批处理,打开你的fiddler2的目录把下面代码保存成一个creat.bat文件直接双击运行 cd %cd% makecert.exe -r -ss my -n "CN=DO_NOT_TRUST_FiddlerRoot, >O=DO_NOT_TRUST, OU=Created by http://www.fiddler2.com" -sky >signature -eku 1.3.6.1.5.5.7.3.1 -h 1 -cy authority -a sha1 -m 120 -b >09/05/2012 pause

  • 另外GET和POST数据传送的却别在于GET方式是直接以链接形式访问,链接中包含了所有的参数,同时也包含了自己密码,包含了密码的话是一种不安全的选择,不过优点在于可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数。

代码操作(一)爬取百度贴吧数据(GET方式爬取数据 ,这里爬取的是战狼2贴吧的html)

# -*- coding:utf-8 -*-

#引入需要的模块
import urllib #用于进行中文编码
import urllib2  #用于进行爬虫核心处理

#定义一个函数,用于爬取对应的数据
def load_url(url,file_name):
    '''
    作用:针对指定的url地址,进行数据的获取
    :param url: 要爬取数据的具体url地址
    :param file_name: 要保存的文件名称;在当前函数中,只做提示使用
    :return: 爬取的数据
    '''
    print('开始爬取%s的内容'%file_name)
    #爬取程序
    my_headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
    }
    request = urllib2.Request(url,headers=my_headers)
    content = urllib2.urlopen(request).read()
    print('爬取%s的内容完成!'%file_name)
    return content

#定义一个函数,用于保存数据
def save_data(data,file_name):
    '''
    作用:主要用于进行数据存储
    :param data: 要存储的数据
    :param file_name: 要存储的文件名称
    :return: 无
    '''
    print('开始保存%s的内容'%file_name)

    with open(file_name,'w') as f:
        f.write(data)
    print('保存%s的内容完成!'%file_name)


#定义函数,进行爬虫的核心处理功能
def spider(url,kw,begin,end):
    '''
    用于进行核心爬虫功能的调度
    :param url: 要爬取的地址
    :param kw: 贴吧名称
    :param begin: 起始页码
    :param end: 结束页码
    :return: 无
    '''
    for page in range(begin,end+1):
        #计算需要的页码
        pn = (page-1)*50
        #进行kw参数的编码
        kw = urllib.urlencode({'kw':kw})
        #拼接url地址
        full_url = url + kw +'&pn=' +str(pn)
        #定义一个保存文件的名称
        file_name = '网页'+str(page) +'.html'
        #开始爬取数据
        html=load_url(full_url,file_name)
        #保存数据到文件
        save_data(html,file_name)

#主程序运行入口
if __name__ == '__main__':
    #用户输入相关数据
    url='http://tieba.baidu.com/f?'
    kw = raw_input('请输入要爬取的贴吧名称:')
    begin = int(raw_input('请输入开始页码:'))
    end = int(raw_input('请输入结束页码:'))

    #调用爬虫开始执行
    spider(url,kw,begin,end)

得到两个文件,分别是战狼2贴吧首页和第二页的html代码

代码操作(二)爬取百度清纯妹子图(GET方式爬取Ajax数据)

# -*- coding:utf-8 -*-
import urllib
import urllib2

url = 'http://image.baidu.com/search//acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E9%9D%92%E6%98%A5%E5%A6%B9%E5%AD%90%E5%9B%BE&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&word=%E9%9D%92%E6%98%A5%E5%A6%B9%E5%AD%90%E5%9B%BE&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&pn=30&rn=30&gsm=1e&1502192101260='
#请求头描述信息
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
}

#包装请求对象
request = urllib2.Request(url,headers=header)

#根据请求对象发送数据请求,获取服务器返回的响应对象
response = urllib2.urlopen(request)

#获取响应对象中的数据
content = response.read()

#将获取的数据保存在文件中
with open('qing.json','w') as f:
    f.write(content)

爬取的图片链接

代码操作(三)爬取豆瓣电影数据(POST方式爬取Ajax数据)

# -*- coding:utf-8

import urllib
import urllib2

url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10'

#要传递的post方式嗯对数据,有可能会有多组数据
submit_data = {
    'start':20,
    'tags':'喜剧'
}
#编码
data = urllib.urlencode(submit_data)

#构造请求头,创建请求对象
headers = {
    "Accept" : "application/json, text/plain, */*",
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.7 Safari/537.36",
    "Accept-Language" : "zh-CN,zh;q=0.8"
}

request = urllib2.Request(url,data,headers)

#发送请求,获取服务器响应数据
response = urllib2.urlopen(request)

#获取爬取到的数据
content = response.read()

#保存数据
with open('movies.json','w') as f:
    f.write(content)

代码操作(四)爬取qq空间数据(验证登录,在创建请求对象时,需加入cookie)

# -*- coding:utf-8 -*-

#引入需要的模块
import urllib
import urllib2

url = 'https://user.qzone.qq.com/695282462/infocenter'

my_header = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
 Chrome/60.0.3112.7 Safari/537.36",
    "Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,
image/apng,*/*;q=0.8",
    "Accept-Language" : "zh-CN,zh;q=0.8",
    'Cookie':'ptisp=ctc; RK=WY0mdGAKSq; ptcz=ed3988f5c1d469e118b8b58fd5afcda9770e51b2ed
2891a36c3445bd76a9efe7; pt2gguin=o0(QQ号码); uin=o0(QQ号码); skey=@ctrB6l4vj'
}

request = urllib2.Request(url,headers=my_header)

response = urllib2.urlopen(request)

html = response.read()

with open('qzone.html','w') as f:
    f.write(html)

爬取到个人空间当前显示内容的html代码

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏快乐八哥

Angular企业级开发(10)-Smart Table插件开发

1.Smart Table内置的分页功能 Smart Table是基于AngularJS模块特性开发出来的一款优秀的表格组件,默认就支持过滤、排序等核心功能。开...

2706
来自专栏Jack-Cui

Python3网络爬虫(四):使用User Agent和代理IP隐藏身份

运行平台:Windows Python版本:Python3.x IDE:Sublime text3 一、为何要设置User Agent     有一...

63510
来自专栏九彩拼盘的叨叨叨

BOM 操作写法示例

1262
来自专栏木子昭的博客

Django快速分页在后端(视图函数中)在前端(html模板中)

分页 在web开发中,对大量的商品进行分页显示,是常见的需求,django对分页直接提供了现成的函数,让我们的开发更为快速便捷... 动图_Django快...

4459
来自专栏PHP实战技术

php+mysql实现分页代码

mysql+php实现分页 数据库设计,如图 ? <?php /** * 1.获取页数 */ $page = empty($_GET['p'])?1:($_GE...

3817
来自专栏尾尾部落

微信公众号爬虫 微信公众号爬虫

爬取步骤: 1. get_cookie.py用selenium登陆,获取cookie,其中你需要勾选“记住”选项,还需要微信扫描二维码,确定顺利登陆

2323
来自专栏偏前端工程师的驿站

ObjectDataSource与GridView配合使用经验总结系列二:分页

  令我使用ObjectDataSource配合GridView显示数据的最重要的原因之一就是ObjectDataSource的分页功能,其实GridView本...

1958
来自专栏Hadoop实操

如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID

在《如何为服务器硬盘配置RAID或JBOD模式》一文中提到,单张RAID卡无法同时启用RAID模式和JBOD模式,即无法混合管理,如果RAID卡为所有硬盘配置了...

1.7K3
来自专栏GIS讲堂

jquery自定义插件实现分页效果

下面说说实现思路。实现分页效果,数据的加载可以分为两种情况:一次性获取数据和动态获取数据。一次性获取数据就是将所要查询的数据一次性查询出来,在前台去做分页...

1272
来自专栏数据结构笔记

利用简书图片上传功能搭建快速免费的图床

后来发现简书的写文章页面可以上传图片,于是萌生了利用简书的图片上传功能来搭建一个图床的想法。

4163

扫码关注云+社区

领取腾讯云代金券