如何匹配HTML中不在标签内的文本？

要在HTML中匹配不在标签内的文本，可以使用正则表达式。以下是一个示例正则表达式，可以匹配不在HTML标签内的文本：

(?<=>)[^<]*?(?=<)

这个正则表达式的工作原理是：

(?<=>) 是一个负向断言，它确保在匹配的文本之前没有尖括号 <。
[^<]*? 匹配任意数量的非尖括号字符，但尽可能少地匹配。
(?=<) 是一个正向断言，它确保在匹配的文本之后有一个尖括号 <。

这个正则表达式将匹配所有不在HTML标签内的文本。

在实际应用中，可以使用编程语言中的正则表达式库来实现这个功能。例如，在Python中，可以使用re库来实现这个功能：

import re

html = '<div><p>这是一段文本</p><p>这是另一段文本</p></div>'
pattern = r'(?<=>)[^<]*?(?=<)'
matches = re.findall(pattern, html)

print(matches)

输出：

['这是一段文本', '这是另一段文本']

请注意，这个方法仅适用于简单的HTML文本。对于复杂的HTML文本，建议使用HTML解析库来解析HTML文档。

、
，</[hH][1-6]>匹配到了
、

、；这里使用了懒惰型元字符来匹配标签中的文本，否则会匹配到从第一个开始标签到最后一下结束标签之间的内容。但是从结果可以看出，有一个无效的标签也匹配上了，即

，它们根本不能配对。要解决这个问题，就需要使用到回溯引用（backreference）。

手把手教你写一个 AST 抽象语法树

总结伪类和伪元素（转）

先说一说为什么css要引入伪元素和伪类，以下是css2.1 Selectors章节中对伪类与伪元素的描述：

（数据科学学习手札31）基于Python的网络数据采集（初级篇）

在实际的业务中，我们手头的数据往往难以满足需求，这时我们就需要利用互联网上的资源来获取更多的补充数据，但是很多情况下，有价值的数据往往是没有提供源文件的直接下载渠道的（即所谓的API），这时我们该如何批量获取这些嵌入网页中的信息呢？

013

【面试题】CSS知识点整理(附答案)

css引入伪类和伪元素概念是为了格式化文档树以外的信息。伪类和伪元素是用来修饰不在文档树中的部分。

【Vuejs】1094- 你真的了解vue模版编译么？

实战中学习浏览器工作原理 — HTML 解析与 CSS 计算

上一部分我们完成了从 HTTP 发送 Request，到接收到 Response，并且把 Response 中的文本都解析出来。

深入浅出爬虫之道： Python、Golang与GraphQuery的对比

本文将分别使用 Python ，Golang 以及 GraphQuery 来解析某网站的素材详情页面，这个页面的特色是具有清晰的数据结构，但是DOM结构不够规范，无法通过单独的选择器定位页面元素，对页面的解析造成了一些曲折。通过这个页面的解析过程，深入浅出的了解爬虫的解析思想与这些语言之间的异同。

防运营商劫持代码

运营商是指那些提供宽带服务的ISP，包括三大运营商中国电信、中国移动、中国联通，还有一些小运营商，比如长城宽带、歌华有线宽带。运营商提供最最基础的网络服务，掌握着通往用户物理大门的钥匙，目前运营商劫持很普遍。

sublime text3优秀插件汇总（含安装教程）

1. 自主安装sublime text3 2. ubuntu下使用下面命令安装

JavaScript 教程「9」：DOM 元素获取、属性修改

Web API 是指网页服务器或者网页浏览器的应用程序接口。简单来讲，就是我们在编写 JavaScript 代码时，可以通过 Web API 来操作 HTML 网页和浏览器。

Python 自动化指南（繁琐工作自动化）第二版：十二、网络爬取

由于计算机上的许多工作都涉及到上网，如果你的程序能上网就太好了。网络抓取是使用程序从网络上下载和处理内容的术语。例如，谷歌运行许多网络抓取程序，为其搜索引擎索引网页。在这一章中，你将学习几个模块，这些模块使得用 Python 抓取网页变得很容易。

零基础学习爬虫并实战

总第63篇本篇主要从爬虫是什么、爬虫的一般流程、爬虫各个流程的实现方法、爬虫实例四个方面分享零基础了解爬虫，并进行简单的实战。在阅读下面之前，我们需要对网页有个基本的了解，知道什么是标签，什么是属性，以及知道标题是放在哪，内容是放在哪，这些关于网站的基础知识。可查看我前几篇关于网页基础知识的推文：网页是怎么构成的？网页的修饰网页的行为 01|爬虫是什么：爬虫又叫网页数据抓取，就是通过向浏览器发出请求并得到回应，把回应的内容抓取保存到本地的过程叫做爬虫。比如，我要获

010

sublimeText3之码上有爱

相信对于很多写代码的小伙伴来说,对于开发编辑器都不会陌生,什么editplus,dw,webstorm,hubuilder,vscode,esciplse,vim等萝卜青菜都各有所爱,每个编辑器都有它的独特之处,本质上并无优劣之分,然而工欲善其事必先利其器,好的工具就是成功的一半,最近一直都在想着,怎么样提高自己的效率,如果总是复性的劳动一件事情,时间久了,觉得是毫无意义的,让自己远离刀耕火种的时代,提高效率,同时也是为了减少手残腰椎痛(说得好像不是搬砖的,可是我依旧是个搬砖的),那么今天就我平时的使用跟大家分享一款自己喜欢编辑sublinmeText3,本文适合小白,有志于解脱鼠标手崇尚键盘侠的键客,对于它的使用和学习,我也一直在摸索中,初学者学习笔记使用心得,希望对正在路上的你有些用…

前端学习笔记-1

前言由于各种原因与困难，最终还是妥协了，让某人学习安全的想法是不可靠的，于是对前端还是萌新阶段的我强行给自己开了一个技能分支，一边学习前端，一边作为笔记供某人参考，我自己的编程之路学的坎坎坷坷，但还是有不少收获的，而前端的学习又并不完全和编程语言相似，我只是很谨慎的说一些不会有太大出入的意见，后续的学习还希望你能自己有自己的学习方法。

前端面试01-HTML+CSS

常用浏览器有chrome、safari、 IE、火狐(firefox) 、 Opera 、360、搜狗等

javaWeb核心技术第四篇之Javascript第二篇事件和正则表达式

- 事件 - 表单提交(掌握) "onsubmit" - 单击事件(掌握) "onclick" - 页面加载成功事件(掌握) "onload" - 焦点事件:(掌握) - 获取焦点 "onfocus" - 失去焦点 "onblur" - 表单事件(了解) - ondblclick 双击事件 - onreset; 重置 - onchange; 改变

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何匹配HTML中不在标签内的文本？

，</[hH][1-6]>匹配到了

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐