首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何从html文件中提取一段文本?

如何从html文件中提取一段文本?
EN

Stack Overflow用户
提问于 2019-06-10 01:49:59
回答 1查看 0关注 0票数 0

我知道类似问题有多个答案,但是,我无法得到我的方案的答案。

我有成千上万的html文件,从这些文件中,我需要提取一个带有标题和它的正文的部分,“项目1A。风险因素”

这是html文件的链接。我想从第25页开始提取文本,即项目1A。直到第37页的风险因素,即本节结束的地方。

我可以用HTML格式本身或文本格式提取它,任何东西都可以。

这是我正在寻找的东西。很抱歉谷歌驱动器链接,我找不到任何其他方式来获得这个。

EN

回答 1

Stack Overflow用户

发布于 2019-06-10 11:46:58

有很多方法可以做到这一点。BeautifulSoup并且requests会让你的生活更轻松。我相信有更优化的解决方案,但有一个简单的解决方案可以演示如何实现这一目标。

代码语言:javascript
复制
#!/usr/bin/env python3

import requests
from bs4 import BeautifulSoup

res = requests.get('https://www.sec.gov/Archives/edgar/data/4904/000000490412000013/ye11aep10k.htm')

soup = BeautifulSoup(res.text)

wanted_pages = ['25', '37']

page_divs = [div for div in soup.find_all('div', id='PN')
            if div.font.text in wanted_pages]

wanted_page_indices = [str(soup).find(str(div)) for div in page_divs]

section_str = str(soup)[slice(*wanted_page_indices)]

section_html = BeautifulSoup(section_str).prettify()

# do something with the section

您可以通过安装第三方库pip。您可以将这样的内容粘贴到for循环中,并按照我的理解为每个html页面执行此操作。希望我的问题是正确的,希望这有用。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/-100006959

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档