问如何在requests.get()之后从正文中提取数据以进行web抓取
EN

Stack Overflow用户

提问于 2022-08-22 18:27:33

回答 1查看 146关注 0票数 0

这是我的密码

    SUSTAINABILITY = []
    
    response = requests.get(URL, timeout=15)
    page_src = response.text
    SUSTAINABILITY.append(page_src.count("sustainability"))

我正在从response.text获得HTML，然后检查可持续性这个词出现了多少次。此代码正在运行，但我只想在body标记中计算单词“可持续性”。

如何从body标记中提取数据，然后计数()以查看单词“可持续性”发生了多少次？

python

web-scraping

python-requests

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-08-22 18:51:54

@得到一个好的建议。

from bs4 import BeautifulSoup

import requests


response = requests.get(URL, timeout=15)
# Make a "soup" from the response's text
soup = BeautifulSoup(response.text, 'html.parser')
# Take the <body> of HTML page as NavigableString (if I don't miss),
# convert it into string and count required string
print(str(soup.body).count("a"))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73449544

复制

相似问题

问如何在requests.get()之后从正文中提取数据以进行web抓取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在requests.get()之后从正文中提取数据以进行web抓取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在requests.get()之后从正文中提取数据以进行web抓取
EN