Ruby:提取标签和标签属性之间的文本？_如何使用JSoup将标签和标签之间的文本提取到列表中_提取标签之间的数据 - 腾讯云开发者社区

ruby

提取两个标记之间的文本以及标记中指定的属性的最简单方法是什么，例如： some random text heresome other{"id": "12345", "tag": "tag content A"}, {"type": "

浏览 24提问于2021-04-12得票数 1

回答已采纳

5回答

如何使用PHP从HTML文件中提取所有文本？

php、html、regex、parsing、html-content-extraction

如何从HTML文件中提取所有文本但是，我不想提取样式和脚本标记之间的文本现在，我有以下代码这很好用，但是它检索我不想检索的脚本和样式标签，以及另一个问题，我不确定它是否像alt那样检索属性，因为strip_tags函数可能会删除所

浏览 0提问于2009-10-02得票数 0

1回答

用正则表达式提取文本的副词

java、regex

我有一个文本，我想用regex提取文本的部分。</p>例如，上文摘录：(3)(4)

浏览 1提问于2013-12-13得票数 0

回答已采纳

1回答

我已经在上问了同样的问题，但是，我在那里没有得到答案。因此，也许有人在这里遇到了同样的问题，并得到了答案。在我的应用程序中，我计算用户在撰写tweet时输入的字符长度。但是，如果用户输入URL，则在发布tweet时，URL将自动缩短(通过Twitter的API)。因此，我必须在字符计数器中将URL的长度替换为生成的t.co URL的长度。然而，现在的问题是，Twitter对URL的定义是什么，以便我知道您何时调整我

浏览 3提问于2012-03-22得票数 1

回答已采纳

1回答

忽略两个具有正则表达式的字符串之间的文本

java、regex

我有一个文本，我想用regex提取文本的部分。</p>例如，上文摘录：(3)它不应该在标签标签之间提取括号。我使用regex的方法如下： (<label>){0,1}[(\\w\\W)&&[^[<&#

浏览 1提问于2013-12-13得票数 0

回答已采纳

1回答

如何使用SGMLParser从HTML中提取指定的文本

python、html、tags、sgml

我创建了一个扩展的SGMLParser类： SGMLParser.遇到<title>标签时调用IMO start_title，遇到普通文本时调用handle_data。现在我想提取<title>和</title>之间的文本，例如 <html><head><

浏览 0提问于2012-02-26得票数 1

回答已采纳

1回答

从导致pdf文件的锚元素中提取信息

python、html、scrapy

我需要提取被困在<a>标记之间的文本：显然，我不能执行response.text或response.css我脑海中浮现的一件事是爬行页面，从页面中提取所有链接，并将它们保存在文本文件中。它起了作用，只是我最终得到了很多重复的链接，被破坏的链接(比如403,404,500)

浏览 0提问于2016-12-12得票数 1

1回答

使用正则表达式从html标记中提取文本

regex、python-2.7、web-scraping

我刚接触web抓取和正则表达式。我知道了如何在html标签之间提取文本。问题是我不想要标签内的文本，比如class=“"，只想要标签之间的文本。>)', html) <h1 class="title">Title</h1>顺便说一下，我使用的是P

浏览 3提问于2016-04-17得票数 1

5回答

正则表达式，跳过几个单词

python、html、regex

我很难在“alt”标签中的引号之间找到文本。我一直在尝试正则表达式，如!?border="0“跳过它，但仍然不能工作。下面是我试图从regex中提取的文本 <img src="http://www.ebgames.com.au/0141/169

浏览 5提问于2017-05-18得票数 0

回答已采纳

1回答

过滤HTML文档中的所有内部文本

python、html、beautifulsoup

我想要一个大的HTML文档，我想去掉所有标签之间的所有内部文本。我发现的所有东西都是关于从HTML中提取文本的。我想要的只是原始的HTML标记，它们的属性完好无损。人们可能如何过滤掉文本呢？

浏览 3提问于2014-03-31得票数 1

回答已采纳

4回答

Selenium web驱动程序使用Ruby从标签的for属性获取文本

ruby、selenium、xpath

我在Javascript或python中看到了一些如何这样做的例子，但我正在寻找如何在标签上找到for属性的文本。thisIsTheTextNeeded">LabelText</label> 我们希望从label元素的for属性中提取文本。然后使用该文

浏览 11提问于2015-04-07得票数 1

回答已采纳

1回答

忽略regex中的br、b、strong和i html标记

regex

我希望从html中提取超过100个字符的文本。文本可以在任何一组标签之间，忽略br、b、strong和i标签。<([^>]+)>[^<]{100,})<\1>几乎是正确的，但它在所有标签处都停止 if not < and not (<b

浏览 1提问于2012-04-08得票数 0

1回答

用于匹配样式标记的RegEx

javascript、regex、string

我有一个HTML代码，其中包含CSS代码在标签下的头标签。我想使用正则表达式来提取HTML中的所有文本，只提取纯文本(在HTML标记之间)。我试过了它用空字符替换了<>之间的所有东西，问题是样式标签内的

浏览 0提问于2019-05-01得票数 1

1回答

红宝石记录仪的CloudWatch滤波模式

ruby、logging、amazon-cloudwatch、cloudwatch

对于AWS CloudWatch日志，我想应用一个过滤器，将由ruby记录器生成的消息中的字段分隔开来。I, [26/Oct/2015:04:35:12 +0000#11] INFO -- : (0.000934s) BEGINSeverityID, [DateTime#pid] SeverityLabel -- ProgName: message 如何使用CloudWatch过滤器提取标签？也就是说，如何在

浏览 3提问于2015-10-27得票数 0

回答已采纳

3回答

在~标签之间提取文本

c#、regex

content5content7~header3content10content12我需要使用C#语言中的正则表达式来提取每个标头(C#)之间的内容。因此，将有一个数组作为输出，假设它的名称m及其内容：m[1] = "~header2|content5

浏览 6提问于2015-09-30得票数 0

回答已采纳

2回答

如何使用PHP从此代码中的锚标记中提取id和url？

php、html、regex、tags、extract

我试图从锚标签中提取文本url(href)和id。到目前为止，我可以得到锚标签之间的文本。这是我的密码 <head> <body>这样，我只能在两个纯锚标签之间打印文本(没有任何参数)。但是，当存在诸如href<e

浏览 1提问于2018-12-01得票数 1

回答已采纳

2回答

减少标签和标签对齐之间的间距

html、asp.net

 我的来源是这样的： <asp:TextBox ID="textDepName" runat="server"></asp:TextBox> </div&

浏览 0提问于2016-06-06得票数 0

3回答

如何在两个不同的封闭html标签之间提取文本，这些标签不在标签内？

python、html、web-scraping

在一个有许多具有相同类名的b标签的网页上，我想提取两个不同的封闭html 'b‘标签之间的文本，特别是这些b标签。inkjet (piezoelectric)"我尝试通过使用findALL创建表来使用漂亮的sou

浏览 18提问于2019-10-22得票数 1

回答已采纳

3回答

字符串解析帮助

php、regex

</hobbies>1)提取字符串中每个<age>和<hobbies>标签之间的文本。例如，我有一个名为$ages的数组，它将包含在所有<age></age>标记之间找到的所有年龄，然后是另一个数组$hobbies，它将包含在整个字符串中找到的<hobbies></hobbies>标记<em

浏览 0提问于2010-01-29得票数 0

回答已采纳

3回答

下面的Regex是什么？

c#、.net、regex

我想提取指定的开始和结束标记之间的所有文本，包括标记。例如：Text Extracted: <NAME>Kai</NAME>以上内容的正则表达式是什么？

浏览 0提问于2011-02-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云