首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在requests.get()之后从正文中提取数据以进行web抓取

如何在requests.get()之后从正文中提取数据以进行web抓取
EN

Stack Overflow用户
提问于 2022-08-22 18:27:33
回答 1查看 146关注 0票数 0

这是我的密码

代码语言:javascript
运行
复制
    SUSTAINABILITY = []
    
    response = requests.get(URL, timeout=15)
    page_src = response.text
    SUSTAINABILITY.append(page_src.count("sustainability"))

我正在从response.text获得HTML,然后检查可持续性这个词出现了多少次。此代码正在运行,但我只想在body标记中计算单词“可持续性”。

如何从body标记中提取数据,然后计数()以查看单词“可持续性”发生了多少次?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-08-22 18:51:54

@得到一个好的建议。

代码语言:javascript
运行
复制
from bs4 import BeautifulSoup

import requests


response = requests.get(URL, timeout=15)
# Make a "soup" from the response's text
soup = BeautifulSoup(response.text, 'html.parser')
# Take the <body> of HTML page as NavigableString (if I don't miss),
# convert it into string and count required string
print(str(soup.body).count("a"))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73449544

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档