问如何从html文件中提取一段文本？
EN

Stack Overflow用户

提问于 2019-06-10 01:49:59

回答 1查看 0关注 0票数 0

我知道类似问题有多个答案，但是，我无法得到我的方案的答案。

我有成千上万的html文件，从这些文件中，我需要提取一个带有标题和它的正文的部分，“项目1A。风险因素”

这是html文件的链接。我想从第25页开始提取文本，即项目1A。直到第37页的风险因素，即本节结束的地方。

我可以用HTML格式本身或文本格式提取它，任何东西都可以。

这是我正在寻找的东西。很抱歉谷歌驱动器链接，我找不到任何其他方式来获得这个。

回答 1

Stack Overflow用户

发布于 2019-06-10 11:46:58

有很多方法可以做到这一点。BeautifulSoup并且requests会让你的生活更轻松。我相信有更优化的解决方案，但有一个简单的解决方案可以演示如何实现这一目标。

#!/usr/bin/env python3

import requests
from bs4 import BeautifulSoup

res = requests.get('https://www.sec.gov/Archives/edgar/data/4904/000000490412000013/ye11aep10k.htm')

soup = BeautifulSoup(res.text)

wanted_pages = ['25', '37']

page_divs = [div for div in soup.find_all('div', id='PN')
            if div.font.text in wanted_pages]

wanted_page_indices = [str(soup).find(str(div)) for div in page_divs]

section_str = str(soup)[slice(*wanted_page_indices)]

section_html = BeautifulSoup(section_str).prettify()

# do something with the section

您可以通过安装第三方库pip。您可以将这样的内容粘贴到for循环中，并按照我的理解为每个html页面执行此操作。希望我的问题是正确的，希望这有用。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/-100006959

复制

相似问题

问如何从html文件中提取一段文本？
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从html文件中提取一段文本？EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从html文件中提取一段文本？
EN