腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我爱编程

专栏作者

64

文章

90949

阅读量

29

订阅数

import json from multiprocessing import Pool import requests import re from requests.exceptions import RequestException headers = { 'Host': 'maoyan.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck

2018-06-13

4910

Day1爬虫原理

爬虫 html json

爬虫基本流程发起请求通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。获取响应内容如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容。类型可能有HTML，Json字符串，二进制数据（如图片类型）等类型。解析内容得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析。可能是Json，可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。保存数据保存形式多样

2018-04-26

7320

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态