Python和requests库结合采集豆瓣短评

文章来源：企鹅号 - 华科云商小彭

Python是一种常用的程序语言，今天我们就用Python和requests库结合，来写一个采集豆瓣短评的程序，非常的简单，一起来学学吧。

```python

import requests

from bs4 import BeautifulSoup

# 设置代理

proxy = f'http://{proxy_host}:{proxy_port}'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get('https://book.douban.com/top250', headers=headers, proxies=proxy)

# 解析HTML

soup = BeautifulSoup(response.text, 'html.parser')

reviews = soup.find_all('span', class_='short')

# 打印短评

for review in reviews:

print(review.text)

```

每一步的解释如下：

1. 导入需要的库（requests和BeautifulSoup）。

2. 设置代理（proxy_host和proxy_port）。

3. 使用requests库的get方法，向豆瓣图书top250页面发送GET请求，同时设置headers和proxies。

4. 使用BeautifulSoup库解析返回的HTML。

5. 使用find_all方法，找到所有class为'short'的span标签，这些标签包含短评信息。

6. 使用for循环，打印出每个短评。

相关快讯