首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从网页中提取内容并将其保存为Python中的数据

从网页中提取内容并将其保存为Python中的数据
EN

Stack Overflow用户
提问于 2021-03-25 10:27:01
回答 1查看 660关注 0票数 1

我试图从此链接中提取中的内容,从下面的图像中提取蓝色圆圈

代码:

代码语言:javascript
运行
复制
import requests
from bs4 import BeautifulSoup

url = 'https://www.cspea.com.cn/list/c01/gr2020bj1005297-3'
res = requests.get(url, verify = False)
html_page = res.content
soup = BeautifulSoup(html_page, 'html.parser')
text = soup.find_all(text=True)

output = ''
blacklist = [
    '[document]',
 'a',
 'b',
 'body',
 'div',
 'em',
 'h1',
 'h2',
 'h3',
 'head',
 'html',
 'i',
 'meta',
 'p',
 'script',
 # 'span',
 # 'td',
 # 'th',
 # 'title'
    # there may be more elements you don't want, such as "style", etc.
]

for t in text:
    if t.parent.name not in blacklist:
        output += '{} '.format(t)

print(output)

如何提取数据并将内容保存为数据?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-03-25 10:40:49

您可以将此示例用作刮取页面的基础(因为我不懂中文,所以可以将所有单元格用于dataframe -之后您可以从不需要的dataframe中删除行):

代码语言:javascript
运行
复制
import urllib3

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

import requests
from bs4 import BeautifulSoup
import pandas as pd


url = "https://www.cspea.com.cn/list/c01/gr2021bj1000186"

soup = BeautifulSoup(requests.get(url, verify=False).content, "html.parser")

index, data = [], []
for th in soup.select(".project-detail-left th"):
    h = th.get_text(strip=True)
    t = th.find_next("td").get_text(strip=True)
    index.append(h)
    data.append(t)

df = pd.DataFrame(data, index=index, columns=["value"])
print(df)

指纹:

代码语言:javascript
运行
复制
                                                             value
项目名称                                     海南省三亚市吉阳区溪泽南路18号兰海水都花园29幢
项目编号                                               GR2021BJ1000186
受让方名称                                                           **
交易方式                                                          网络竞价

...etc.
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66797532

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档