首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python程序媛BeautifulSoup快速入门

爬虫最常用就是要在response回的html文件中获取我们想要的资源,而常用方法除了正则就是BeautifulSoup库了。其实,媛媛本人呢,是习惯使用正则的,不过经常听到很多同学表示正则太复杂,想要使用BeautifulSoup库,今天呢,就满足大家,带着大家超级简单案例,快速入门。

1.首先,使用一个库,先安装。参考媛媛之前的帖子,有详细的教大家第三方库安装。

2.再,导入我们要用的各种库。媛媛使用python环境为3.6。想要问问什么不用2.7的同学,请看媛媛之前的帖子。

# 导入需要的库

import requests

from bs4 import BeautifulSoup

3.上过老师课的同学应该知道,爬虫就是模拟浏览器访问资源去爬取我们需要的东东的,所以,浏览器去访问资源时,第一步呢就是输入url,同样的,我们的爬虫,第一步也是拿到这个url。简单以百度为例。

4.通过requests去模拟登录网站(开发者工具,在requests请求头可以看到发送http请求的方式为get)并获取html代码,存入变量”html”中

html = requests.get(url)

5.我们把网页解析为 BeautifulSoup格式,以便我们用BeautifulSoup 库来分析网页。

soup = BeautifulSoup(html, ‘html.parser’)

6.现在我们有了包含整个网页的HTML代码的变量soup。我们就从soup开始着手提取信息。BeautifulSoup库中的find()函数可以帮助我们进入不同的层次提取内容。我们需要的HTML类“名称”在整个网页中是独一无二的,因此我们可以简单的查找

.如下图。

# 获取“名称”类的

代码段落并提取相应值

name_box = soup.find(‘h2’, attrs={‘class’: ‘s-news-list-wrapper’})

在我们得到标签之后,我们可以用name_box的text属性获取相应值

print name

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180123A0FE2P00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券