使用Javascript和Regular表达式获取html正文中的内容

使用JavaScript和正则表达式获取HTML正文中的内容可以通过以下几个步骤实现：

首先，需要使用DOM解析器将HTML字符串转换为可操作的DOM节点。在浏览器环境中，可以使用DOMParser对象实现这一功能。

const parser = new DOMParser();
const htmlDoc = parser.parseFromString(htmlString, 'text/html');

接下来，可以使用正则表达式来匹配DOM节点中的文本内容。可以使用textContent属性获取节点中的文本内容，然后使用match()方法和正则表达式来匹配所需的内容。

const textContent = htmlDoc.body.textContent;
const regex = /需要匹配的正则表达式/;
const matchedContent = textContent.match(regex);

最后，可以将匹配到的内容进行处理，例如将其存储到数组中或进行其他操作。

const result = [];
if (matchedContent) {
  result.push(matchedContent);
}

完整的代码示例如下：

function getContentFromHtml(htmlString, regex) {
  const parser = new DOMParser();
  const htmlDoc = parser.parseFromString(htmlString, 'text/html');
  const textContent = htmlDoc.body.textContent;
  const matchedContent = textContent.match(regex);
  const result = [];

  if (matchedContent) {
    result.push(matchedContent);
  }

  return result;
}

const htmlString = '<div><p>这是一段文本。</p><p>这是另一段文本。</p></div>';
const regex = /文本/g;
const content = getContentFromHtml(htmlString, regex);
console.log(content);

这个示例中，我们定义了一个getContentFromHtml函数，该函数接受HTML字符串和正则表达式作为参数，并返回匹配到的内容。在这个示例中，我们使用了<div>和<p>标签来演示如何从HTML正文中获取内容。

使用Javascript和正则表达式获取html正文中的内容

、

可能重复：我有一个响应文本，它有一个完整的页面内容，如html，head，body.I，我只希望body.How中的内容能够使用regx.please帮助来实现这一点。

浏览 4提问于2011-07-07得票数 0

2回答

未知的SyntaxError :意料之外的标记；

、

我要去Uncaught SyntaxError: Unexpected token ;在THE LINE NUMBER var documentHtml =function(html){ var result = String(html)

浏览 0提问于2014-03-03得票数 1

回答已采纳

13回答

从url获取文件名的正则表达式

我正在尝试编写一个正则表达式，以便从url获取文件名(如果存在)。(?.]+)+$不幸的是，我匹配了最后一个/之后的任何东西。

浏览 0提问于2013-01-23得票数 15

回答已采纳

1回答

如何在Nginx位置块部分使用regex指南？

、、、、

Nginx regex位置合成器这个特性到底支持什么，因为它没有被完整的文档化？

浏览 3提问于2020-01-21得票数 62

2回答

删除尾行空间模式的正则表达式

、、

我有一个网站更新程序，它将每个p元素转换为textarea，用户在内容中键入内容，然后将每个textarea转换回p &我获取生成的HTML &存储在我的SQL数据库中。我的问题: Internet中的，当我去获取html时，它稍微改变了HTML。和下面的div之间有一个垂直的差距。我正试图想出一个正则表达式来删除这些尾行(&am

浏览 8提问于2011-10-03得票数 3

1回答

如何测试表达式对VS代码中的TextMate语法是否有效？

、、、

我试图使用VS代码的标记化引擎进行语法注入，我不明白为什么有些正则表达式会失败。然后，我希望使用以下Oniguruma (即)来匹配regex：基于上面的演示，正则表达式似乎匹配(捕获？)我想要什么(即，见下文)。然而，当在VS代码语法<em

浏览 13提问于2022-04-16得票数 0

3回答

Javascript正则表达式，查找>和<之间的正斜杠

、

在Javascript函数中，我需要用&#x2F替换所有不属于HTML标签的正斜杠。有没有办法使用正则表达式来查找>和<之间的所有正斜杠

浏览 4提问于2013-07-23得票数 4

2回答

Regex在应用程序中不起作用，但它在网站上工作。

我使用regex来验证用户输入的值是否有效。$/");500.21然而，如果说它不是一个有效值，则会产生错误。然而，当使用像或这样的网站时，您可以在这里看到的正则表达式。

浏览 7提问于2017-09-12得票数 2

回答已采纳

2回答

在Java中不使用java.net从URL中获取域名

、

我想知道在GWT中是否有一种简单的方法可以从没有java.net的url获取主机名。*；因为客户端不支持这个包。 Input ejw.example.com/anotherexample?

浏览 1提问于2014-06-20得票数 0

回答已采纳

1回答

ScriptEngineManage评估的范围？

、、

我想知道ScriptEngineManager的eval()方法可以处理多复杂的方程。(3+2(√(6)4^(2*3) 工作?

浏览 1提问于2016-04-12得票数 0

1回答

有没有办法为leex和yecc编写一个正则表达式来匹配javascript中的regex文字？

、、、、

我正在尝试用erlang编写一个使用leex和yecc的javascript解析器，但我不知道如何匹配regex文本。正则表达式文字两边都用正斜杠字符括起来，但是如果正斜杠在类中，或者放在圆括号中，那么它就不会被算作正则表达式文字的结尾。只使用显而易见的：/.*/不起作用，因为如果后面有另一个正斜杠，那么它将匹配正则表达式末尾之外的<

浏览 16提问于2021-06-04得票数 1

1回答

使用javascript中的regexp提取数据

、

在教程中，我面临以下问题：shortStory是： "A regular expression (also regex or regexp) is a string."我想知道javascript

浏览 4提问于2015-08-02得票数 0

回答已采纳

1回答

什么是/this类型的评论/？甚至连提到它的地方都找不到

、

当我在javascript中做一些小事情时，我发现我可以发表评论/like these/。因为堆栈溢出的代码没有给它们着色，下面是一个图像：我没有找到关于它们的任何东西，而且我认为它们可能有一个非常具体的名称和用法，因为在对评论的任何答复中，我都能找到提到它的地方。更具体的是，我使用的是google的App，但是由于他们的文档没有提到任何关于单个斜杠注释

浏览 1提问于2021-05-22得票数 0

回答已采纳

1回答

如何解析html代码中的一些邮件

、、、

我想构建一个bash脚本来检测HTML代码中的一些邮件。目前，我不确定如何建立正确的正则表达式，以自动检测来自HTML的电子邮件。egrep -o "\S*@.*\.

浏览 0提问于2020-10-28得票数 0

回答已采纳

1回答

忽略或消除使用html中正则表达式的文本中的html格式<tags>。

、

我们有html响应，需要从段落html标记中提取内容/文本，并将其与xml文本进行比较，如下所示。在本文中，应该忽略的内容/文本之间有标记，因此试图使用正则表达式来实现这一点。xml内容：html内容<

浏览 0提问于2019-01-09得票数 0

回答已采纳

1回答

Boost Regex查找主机/域名

、、、

我对c++和boost非常陌生。//Regular Expression from Javascript.：“无法识别的字符转义序列”我从Javascript中获取了这个正则表达式。除了Perl，我可以在'Boost.regex‘中使用的正则表达式类型是什么？有没有任何类型的正则表达式转换器？(因为我要将大量代码从Javascript转换成c++，而且

浏览 0提问于2010-02-27得票数 0

回答已采纳

1回答

标题中字体颜色不起作用的SSRS 2016 IIF语句

、、、

我有两个报告，允许用户通过参数选择来更改字体颜色，这是字体颜色属性中的表达式：我们刚刚将报告移动到一个新的2016实例，这个表达式在标题中不再有效。它适用于报告表/正文中的所有字段。更新:我试过使用颜色名称(黑/白)，但没有区别。颜色在导出或打印时是正确的，只是在单击“运行

浏览 0提问于2016-11-23得票数 0

1回答

使用curl在javascript执行后获取源码

、、

有没有可能用curl得到网页的html源代码，然后在上面运行javascript解释器，这样我就能得到生成的内容？我需要获取的页面使用了一些编码和生成的内容，所以我想首先运行javascript来获取转义和生成的内容……或者我需要对javascript进行正则表达式，然后自己

浏览 0提问于2012-05-09得票数 4

回答已采纳

1回答

当我尝试在JavaScript中使用格鲁伯的“改进的”网址匹配正则表达式模式时，我如何修复“无效的组”错误？

、、

我试图将John Gruber的集成到我的一个Javascripts中，但是WebKit的检查器(在Google Chrome5.0.375.125for Mac中)给出了一个“无效的组”正则表达式语法错误«»“”‘’]))tweet_text = tweet_text.replace(/(?i)\b

浏览 1提问于2010-08-25得票数 7

回答已采纳

3回答

正则表达式失败并显示html代码片段

我需要使用RegEx提取HTML标记的内容。我搜索的文本正文如下所示： The Price is <script type="text/javascript">document.write(123())</script>我试着使用这个表达式，但是失败了。s)<di

浏览 2提问于2013-03-06得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Javascript和Regular表达式获取html正文中的内容

相关·内容

使用Javascript和正则表达式获取html正文中的内容

未知的SyntaxError :意料之外的标记；

从url获取文件名的正则表达式

如何在Nginx位置块部分使用regex指南？

删除尾行空间模式的正则表达式

如何测试表达式对VS代码中的TextMate语法是否有效？

Javascript正则表达式，查找>和<之间的正斜杠

Regex在应用程序中不起作用，但它在网站上工作。

在Java中不使用java.net从URL中获取域名

ScriptEngineManage评估的范围？

有没有办法为leex和yecc编写一个正则表达式来匹配javascript中的regex文字？

使用javascript中的regexp提取数据

什么是/this类型的评论/？甚至连提到它的地方都找不到

如何解析html代码中的一些邮件

忽略或消除使用html中正则表达式的文本中的html格式<tags>。

Boost Regex查找主机/域名

标题中字体颜色不起作用的SSRS 2016 IIF语句

使用curl在javascript执行后获取源码

当我尝试在JavaScript中使用格鲁伯的“改进的”网址匹配正则表达式模式时，我如何修复“无效的组”错误？

正则表达式失败并显示html代码片段

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐