腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
我爱编程
专栏作者
举报
64
文章
90949
阅读量
29
订阅数
订阅专栏
申请加入专栏
全部文章
python
其他
爬虫
html
数据库
windows
编程算法
https
bash
json
sql
ubuntu
http
wordpress
numpy
scrapy
php
go
xml
android
嵌入式
云数据库 SQL Server
云数据库 Redis
git
api
linux
apache
nginx
bash 指令
apt-get
人工智能
图像处理
网站
express
分布式
互联网金融
shell
html5
jdk
hadoop
ssh
正则表达式
yum
面向对象编程
ftp
markdown
socket编程
anaconda
安全
数据分析
action
搜索文章
搜索
搜索
关闭
猫眼Top100
json
windows
import json from multiprocessing import Pool import requests import re from requests.exceptions import RequestException headers = { 'Host': 'maoyan.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck
林清猫耳
2018-06-13
491
0
Day1爬虫原理
爬虫
html
json
爬虫基本流程 发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。 获取响应内容 如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容。类型可能有HTML,Json字符串,二进制数据(如图片类型)等类型。 解析内容 得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是Json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。 保存数据 保存形式多样
林清猫耳
2018-04-26
732
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档