requests实战技术

使用python爬虫其实就是方便,它会有各种工具类供你来使用,很方便。Java不可以吗?也可以,使用httpclient工具、还有一个大神写的webmagic框架,这些都可以实现爬虫,只不过python集成工具库,使用几行爬取,而Java需要写更多的行来实现,但目的都是一样。

下面介绍requests库简单使用:

#!/usr/local/env python
#  coding:utf-8
import requests
#下面开始介绍requests的使用,环境语言是python3,使用下面的网址作为参考
#http://www.sse.com.cn/market/bonddata/data/tb/
request_param = {'jsonCallBack': 'jsonpCallback6588',
            'isPagination': 'true',
            'sqlId': 'COMMON_BOND_XXPL_ZQXX_L',
            'BONDTYPE': '地×××府债券',
            'pageHelp.pageSize': '25',
            'pageHelp.pageNo': '2',
            'pageHelp.beginPage': '2',
            'pageHelp.cacheSize': '1',
            'pageHelp.endPage': '21'}
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
referer = 'http://www.sse.com.cn/market/bonddata/data/ltb/'
#设置headers
headers = {'User-Agent': user_agent, 'Referer': referer}
#设置代理
proxy = {
    "http":"http://113.214.13.1:8000"
}
# 需要请求的URL地址
request_url = 'http://query.sse.com.cn/commonQuery.do?'
#设置请求地址
response = requests.get(request_url, headers=headers, proxies=proxy, params=request_param);
print(response.status_code)
#文本响应内容
print(response.text)
#json格式响应内容
print(response.json())
#二进制响应内容
print(response.content)
#原始格式
print(response.raw)

原文发布于微信公众号 - 编程坑太多(idig88)

原文发表时间:2018-03-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏技术博文

php curl获取网页内容乱码和获取不到内容的解决方法

1.如果用curl请求网页,多方网页使用了gzip压缩,那么获取的内容将有可能为乱码。 解决方法 $url = 'http://www.du52.com'; $...

4777
来自专栏尾尾部落

微信公众号爬虫 微信公众号爬虫

爬取步骤: 1. get_cookie.py用selenium登陆,获取cookie,其中你需要勾选“记住”选项,还需要微信扫描二维码,确定顺利登陆

2173
来自专栏架构师之路

一张图看懂单机部署+集群部署+热备部署与磁盘阵列(RAID)

一张图看懂单机部署+集群部署+热备部署与磁盘阵列(RAID) ? 单机部署 集群部署 热备部署 单机部署(stand-alone):只有一个饮水机提供服务,服...

3395
来自专栏WindCoder

自用插件整理之表格bootstrap-table

本插件基于bootstrap,网上各种例子也比较多,本文就不详细列api一类的了,只将自己常用的记录一下。多数代码中存在的注释,就不再重写。

1K1
来自专栏数据结构笔记

利用简书图片上传功能搭建快速免费的图床

后来发现简书的写文章页面可以上传图片,于是萌生了利用简书的图片上传功能来搭建一个图床的想法。

3883
来自专栏Hadoop实操

如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID

在《如何为服务器硬盘配置RAID或JBOD模式》一文中提到,单张RAID卡无法同时启用RAID模式和JBOD模式,即无法混合管理,如果RAID卡为所有硬盘配置了...

1.5K3
来自专栏九彩拼盘的叨叨叨

BOM 操作写法示例

1242
来自专栏快乐八哥

Angular企业级开发(10)-Smart Table插件开发

1.Smart Table内置的分页功能 Smart Table是基于AngularJS模块特性开发出来的一款优秀的表格组件,默认就支持过滤、排序等核心功能。开...

2606
来自专栏Python攻城狮

Python网络爬虫(二)- urllib爬虫案例 urllib的爬虫案例-通过最原始的爬虫方式

代码操作(一)爬取百度贴吧数据(GET方式爬取数据 ,这里爬取的是战狼2贴吧的html)

702
来自专栏木子昭的博客

Django快速分页在后端(视图函数中)在前端(html模板中)

分页 在web开发中,对大量的商品进行分页显示,是常见的需求,django对分页直接提供了现成的函数,让我们的开发更为快速便捷... 动图_Django快...

4309

扫码关注云+社区

领取腾讯云代金券