爬虫入门(二):单线程爬虫

Requests介绍与安装

  • Windows环境下:pip install requests
  • Linux环境下:sudo pip install requests

第三方库安装技巧

  • 少使用easy_install因为只能安装不能卸载
  • 多用pip方式安装
  • 撞墙了怎么办?请戳->第三方库安装技巧

将下载的后缀为whl的文件改为zip, 解压文件,获得requests文件,拷贝到C盘的python/lib文件夹中。

第一个网络爬虫

Requests获取网页源代码

  • 直接获取源代码
  • 修改http头获取源代码

爬取python吧首页的源代码

import requests
html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python')
print html.text

单线程爬虫的基本原理:使用requests获取网页源代码,再使用正则表达式匹配出感兴趣的内容。

向网页提取数据Get与Post

  • Get是从服务器上获取数据
  • Post是向服务器传送数据
  • Get通过构造url中的参数来实现功能

分析目标网站

Requests表单提交功能

  • 核心方法:Requests.post
  • 核心步骤:构造表单-提交表单-获取返回信息

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Flutter入门到实战

快速在线制作json接口,从此写项目引入接口就简单多了

1541
来自专栏JAVA同学会

解决IDEA无法安装插件的问题

进入2018年以来,在IDEA插件中心中,安装插件经常安装失败,报连接超时的错误。如下:

4362
来自专栏python3

python导入模块--import--2

在跟之前test_import_color_print.py同级目录下创建testimport.py文件,不然导模块会有问题

962
来自专栏轻扬小栈

Xware Desktop linux下的迅雷 — ubuntu 14.04 安装

8437
来自专栏小文博客

WordPress友链排序插件——链接排序(已汉化)

1926
来自专栏Java技术栈

Maven精选系列--过滤不同环境配置文件

背景介绍 项目有开发、测试、生产至少有这三个环境,所需要的配置信息肯定不一样,所以打包的时候可以指定使用哪一个配置文件。 如测试环境使用:mvn package...

44116
来自专栏抠抠空间

Django基本命令

下载Django pip3 install django #默认下载最新版 pip3 install django==1.11.1...

3436
来自专栏coder修行路

Python爬虫番外篇之关于登录

常见的登录方式有以下两种: 查看登录页面,csrf,cookie;授权;cookie 直接发送post请求,获取cookie 上面只是简单的描述,下面是详细的针...

31110
来自专栏十月梦想

node模块之url模块初始

url模块初始:url是node提供的网址服务的一个模块!使用可以快速进行相对应的模块分析!

1072
来自专栏向治洪

svn插件安装

以下是一些关键步骤: ? ? 其中http://subclipse.tigris.org/update_1.0.x是SVN插件的下载站点【subclipse是E...

2125

扫码关注云+社区

领取腾讯云代金券