模拟浏览器,发送请求,获取响应
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
爬虫在互联网世界中有很多的作用,比如:
爬虫的基本流程如图所示
向url发送请求,并获取响应(需要http协议) 3. 如果从响应中提取url,则继续发送请求获取响应 4. 如果从响应中提取数据,则将数据进行保存
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!