使用Python按标记名分隔html文件

在Python中，可以使用BeautifulSoup库来解析和处理HTML文件。按标记名分隔HTML文件可以通过以下步骤实现：

导入BeautifulSoup库：

from bs4 import BeautifulSoup

读取HTML文件：

with open('file.html', 'r') as file:
    html_data = file.read()

创建BeautifulSoup对象：

soup = BeautifulSoup(html_data, 'html.parser')

使用find_all方法按标记名查找HTML元素：

tag_name = 'div'  # 替换为你要分隔的标记名
elements = soup.find_all(tag_name)

遍历查找到的元素，并将其内容保存到不同的文件中：

for i, element in enumerate(elements):
    with open(f'{tag_name}_{i}.html', 'w') as file:
        file.write(str(element))

上述代码将按照指定的标记名（例如'div'）查找HTML文件中的所有该标记名的元素，并将每个元素的内容保存到以标记名和索引命名的文件中。

关于HTML文件的分隔，可以根据实际需求选择不同的标记名进行分隔，例如'div'、'p'、'h1'等。这样可以将HTML文件按照不同的标记名分隔为多个文件，方便后续处理和管理。

腾讯云相关产品和产品介绍链接地址：

腾讯云官网：https://cloud.tencent.com/
云服务器（CVM）：https://cloud.tencent.com/product/cvm
云数据库MySQL版：https://cloud.tencent.com/product/cdb_mysql
云存储（COS）：https://cloud.tencent.com/product/cos
人工智能（AI）：https://cloud.tencent.com/product/ai
云原生应用引擎（TKE）：https://cloud.tencent.com/product/tke
云安全中心：https://cloud.tencent.com/product/ssc
物联网（IoT）：https://cloud.tencent.com/product/iotexplorer
音视频处理（VOD）：https://cloud.tencent.com/product/vod
区块链服务（BCS）：https://cloud.tencent.com/product/bcs
元宇宙（Metaverse）：https://cloud.tencent.com/product/metaverse

使用Python按标记名分隔html文件

、、

我有一个表示为文本文件(不带.html扩展名)的大型数据集。它们中的每一个都包含几个文档。每个文件中的每个文档都以<DOC>开头，以</DOC>结尾我的目标是将每个文件分成几个文件，每个文件都包含一个文档，然后分别保存。我试过使用BeautifulSoup，但是没有弄明白。一个文件示例： <DOC> <DOCNO> FBIS3-1 </DOCNO>

浏览 39提问于2020-09-09得票数 1

3回答

如何在Emacs中设置分隔符内部的语法颜色？

、、、

我有一个超文本标记语言文件，并且在花括号(web2py模板)中使用python代码，类似于{{=i.name}}在扩展名为.html的文件体中。我的问题是，如何更改{{}}分隔符中代码的颜色？分隔符与彩虹分隔符有不同的颜色，我也有自动配对，但我真正想要的是.html文件内分隔符中的python

浏览 0提问于2012-09-23得票数 3

回答已采纳

7回答

nodejs从绝对路径获取文件名？

、、

是否有任何API可以从绝对文件路径中检索文件名？NodeJS是否从绝对路径获取文件名？

浏览 546提问于2013-11-06得票数 378

回答已采纳

1回答

如何在shell中读取完整文件名

我想要读取完整的文件名，但是它总是按空格自动分隔。do doneAC 它<e

浏览 3提问于2022-06-20得票数 1

1回答

xText中的忍者建造

按标签分列的缩进： rule cc 存在一组保留变量。ID标记由空格分隔。但是在忍者脚本(类似于生成文件)中，

浏览 2提问于2012-05-10得票数 2

2回答

流星，将脚本移动到页面底部。

、

是否可以将脚本包含移到页面底部？如果是的话，我怎样才能做到呢？<head> <script async="" src="//www.google-analytics.com/analytics.js"></script&

浏览 1提问于2014-06-19得票数 1

回答已采纳

1回答

Django i18n的产品没有找到.djhtml和.djt模板

、、、

我正在使用i18n在Django使我的网站多语种。最近，我将模板的扩展名从html更改为djhtml，这样Emacs将执行语法高亮显示，但是在此更改之后，python manage.py makemessages不会找到djhtml文件(或不将它们视为模板)，也不会为它们中的翻译在我的django.po文件中创建条目。它甚至注释掉了我以前在html文件上的翻译。如果我在同一个文件夹中精确复制djhtml文件，但具有

浏览 4提问于2017-01-19得票数 0

回答已采纳

1回答

"0“是有效的HTML5类名吗？

"0“是有效的HTML5类名吗？<div class="0"></div> 编辑：只是为了澄清，我问的是HTML5，而不是CSS。根据“当在HTML上指定时，类属性必须有一个值，它是一组空格分隔的标记”，其中分隔的标记是，看起来"0“是可以的。

浏览 1提问于2020-09-08得票数 0

2回答

如何在Python的字符串中搜索列表的项

、、、、

在Python2.7中，我希望查找和计数文件名中有特定字符串列表的文件。目前，我已经找到了一种方法，可以根据分隔符( _-/')将文件名拆分为不同的单词。我的文件不能总是被找到，因为文件不能总是被分隔，比如'CopyPassport Michael‘，因为它没有相应的标记将'Passport’和'Copy‘分开。对于这段代码，我使用

浏览 4提问于2016-02-15得票数 0

回答已采纳

1回答

如何让doxygen将文件夹复制到生成的HTML文档中而无需更改？

、

我有一个包含bla.html文件和一些资源(*.png和*.json)的文件夹。我希望doxygen将其复制到HTML文档根目录中。如何让它在doxygen配置文件中做这样的事情(不使用外部脚本)？

浏览 11提问于2016-08-13得票数 2

2回答

Google上.py和.app脚本的区别

、

根据，脚本处理程序可以通过URL模式调用三种类型的Python来处理请求匹配。脚本:指令可以包含以.py结尾的文件路径(意思是脚本使用CGI)，也可以包含Python模块路径，包名由点分隔(意味着脚本使用WSGI)。脚本的最后一个组件:使用Python模块路径的指令是模块中一个全局变量的名称:该变量必须是一个WSGI应用程序，通常按约定称为app。这三种类型与它们的用例有什么区别？

浏览 1提问于2015-07-17得票数 2

2回答

os.path.join有必要吗？

、

目前，我几乎总是在我的django项目中使用os.path.join来支持跨OS；我目前不使用它的唯一地方是模板名和URL。不过，我只是在windows上测试了我的项目，看看这是否有效/是否有必要，而且windows似乎会很高兴地接受'/'或'\\' (或者在python之外工作时接受'\' )，而且由于所有的'/'系统都使用'/'，所以似乎没有理由使用</e

浏览 2提问于2014-06-06得票数 11

回答已采纳

1回答

用PyExifTool 0.5.4重命名图像文件(python中的exiftool)

、

我试图使用PyExifTool 0.5.4从python脚本中重命名jpg文件。我可以更改标记，例如DateTimeOriginal，但是当我试图使用标记重命名文件时，我无法获得文件名的正确格式。%%e', '-filename<DateTimeOriginal', os.path.join(subdir, file)) 当从python调用时，这段代码似乎忽略了-d提供的格式，只

浏览 11提问于2022-11-03得票数 0

1回答

运行python-在MacOSX10.11上在MamP3.5上运行脚本

、、、

我尝试在新的MamP3.5上运行一个简单的"helloWorld“python片段，因为旧xampp在的更新中遇到了问题。MAMP文档说，mod_wsgi、实际的python和mod_python是嵌入式的。不知何故，python脚本似乎没有执行。 test.py中的标题是#!/bin/usr/python，我还试图将test.py放在MAMP/cgi-bin-目录中，或者使用其他现有的python(MAMP/

浏览 1提问于2016-03-10得票数 1

1回答

在Python中识别aiml模式中的点

、

在我的一个项目中，我试图识别给定句子中的文件名。例如，“可不可以请打开abc.txt"，因此我需要获取关键字" open”，以便知道预期的操作类型，并且出于显而易见的原因，我还需要识别文件名。/></template></aiml> 在这里，在template标记中，我只是给出了关于要执行的操作和文件名的信息。另一方面，我的python代

浏览 4提问于2017-10-21得票数 1

1回答

AJAX不返回一个烧瓶render_template，它发送数据，但在呈现数据之前停止。

、、

大家好，谢谢收看我的问题，我正在尝试构建和应用程序使用Flask发送html、css和js文件路径到烧瓶(在open() & read()文件内容之后)将它们发送到html并查看那里的代码。我使用AJAX将一个数据发布到这个url："/getFiles“；数据正在成功地发送和打印，但是代码在返回之前停止了。from flask import * app = Flask

浏览 3提问于2021-07-02得票数 1

回答已采纳

1回答

是否限制web表单中文件上传框的文档类型？

、、、、

有没有办法通过HTML或JavaScript设置文件格式类型/过滤器？我希望用户能够选择，当他点击浏览按钮上的网页表单。例如，我想让他选择只上传JPG、GIF和PNG文件。

浏览 0提问于2011-11-06得票数 1

回答已采纳

2回答

我可以使用哪些linux命令来对选项卡分隔的文本文件中的列进行排序？

、、

我需要比较同一文件的两个版本。两者都是制表符分隔的，并具有以下形式：fileX<tab>Z<tab>M<tab>AfileM<tab>M<tab>C&l

浏览 4提问于2017-07-13得票数 1

回答已采纳

1回答

Vim/Neovim拼写检查不处理标记文件(但适用于普通文本文件)

、、、

如果我打开或创建一个没有扩展名(无filetype)或具有.txt扩展名(filetype=text)的文件，拼写检查功能将按预期的工作。Activate oTn --使用命令:set spell spelllang=enThe拼写错误的拼写检查功能将按应有的方式突出显示。但是当我打开或创建一个标记文件(.md或filetype=markdown)时，新病毒的拼写检查根本不起的作用。在这两个示例中(标记或不标记<em

浏览 7提问于2022-10-24得票数 -1

6回答

如何用python水平合并多个.csv文件？

、、

我有几个.csv文件(~10个)，需要水平地将它们合并成一个文件。每个文件具有相同的行数(~300)和4个标题行，它们不一定相同，但不应合并(仅从第一个.csv文件中获取标题行)。行中的标记用逗号分隔，中间没有空格。作为一名python菜鸟，我还没有想出一个解决方案，尽管我确信这个问题有一个简单的解决方案。欢迎任何帮助。

浏览 0提问于2010-10-21得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Python按标记名分隔html文件

相关·内容

使用Python按标记名分隔html文件

如何在Emacs中设置分隔符内部的语法颜色？

nodejs从绝对路径获取文件名？

如何在shell中读取完整文件名

xText中的忍者建造

流星，将脚本移动到页面底部。

Django i18n的产品没有找到.djhtml和.djt模板

"0“是有效的HTML5类名吗？

如何在Python的字符串中搜索列表的项

如何让doxygen将文件夹复制到生成的HTML文档中而无需更改？

Google上.py和.app脚本的区别

os.path.join有必要吗？

用PyExifTool 0.5.4重命名图像文件(python中的exiftool)

运行python-在MacOSX10.11上在MamP3.5上运行脚本

在Python中识别aiml模式中的点

AJAX不返回一个烧瓶render_template，它发送数据，但在呈现数据之前停止。

是否限制web表单中文件上传框的文档类型？

我可以使用哪些linux命令来对选项卡分隔的文本文件中的列进行排序？

Vim/Neovim拼写检查不处理标记文件(但适用于普通文本文件)

如何用python水平合并多个.csv文件？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐