前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫入门(二):单线程爬虫

爬虫入门(二):单线程爬虫

作者头像
一点儿也不潇洒
发布2018-08-07 10:11:57
3380
发布2018-08-07 10:11:57
举报
文章被收录于专栏:肖洒的博客肖洒的博客
python
python

Requests介绍与安装

  • Windows环境下:pip install requests
  • Linux环境下:sudo pip install requests

第三方库安装技巧

  • 少使用easy_install因为只能安装不能卸载
  • 多用pip方式安装
  • 撞墙了怎么办?请戳->第三方库安装技巧

将下载的后缀为whl的文件改为zip, 解压文件,获得requests文件,拷贝到C盘的python/lib文件夹中。

第一个网络爬虫

Requests获取网页源代码

  • 直接获取源代码
  • 修改http头获取源代码

爬取python吧首页的源代码

代码语言:javascript
复制
import requests
html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python')
print html.text

单线程爬虫的基本原理:使用requests获取网页源代码,再使用正则表达式匹配出感兴趣的内容。

向网页提取数据Get与Post

  • Get是从服务器上获取数据
  • Post是向服务器传送数据
  • Get通过构造url中的参数来实现功能

分析目标网站

Requests表单提交功能

  • 核心方法:Requests.post
  • 核心步骤:构造表单-提交表单-获取返回信息
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-09-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Requests介绍与安装
  • 第三方库安装技巧
  • 第一个网络爬虫
  • 向网页提取数据Get与Post
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档