首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python和requests库结合采集豆瓣短评

Python是一种常用的程序语言,今天我们就用Python和requests库结合,来写一个采集豆瓣短评的程序,非常的简单,一起来学学吧。

```python

import requests

from bs4 import BeautifulSoup

# 设置代理

proxy = f'http://{proxy_host}:{proxy_port}'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get('https://book.douban.com/top250', headers=headers, proxies=proxy)

# 解析HTML

soup = BeautifulSoup(response.text, 'html.parser')

reviews = soup.find_all('span', class_='short')

# 打印短评

for review in reviews:

print(review.text)

```

每一步的解释如下:

1. 导入需要的库(requests和BeautifulSoup)。

2. 设置代理(proxy_host和proxy_port)。

3. 使用requests库的get方法,向豆瓣图书top250页面发送GET请求,同时设置headers和proxies。

4. 使用BeautifulSoup库解析返回的HTML。

5. 使用find_all方法,找到所有class为'short'的span标签,这些标签包含短评信息。

6. 使用for循环,打印出每个短评。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OykFbNeolrJGrNZIlhWnCnKQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券