从简单的html中提取文本和(hlStart和hlEnd)标签

文章/答案/技术大牛

发布

3回答

python、r、xml-parsing、html-parsing、tei

我有一个html/xml文件的以下部分： <p><hlstart ana="#ann224094"></<hlstart>Przed<hlend ana="#ann224094"></hlend> <hlstart"></hlstart>dni,<hlend</

浏览 10提问于2020-05-10得票数 0

1回答

遍历HTML元素和节点

html、xml、parsing、jsoup

我正在做一个HTML页面高亮工具项目，但当搜索项是HTML标签元数据的名称或类/ID名称时遇到了问题；例如，如果搜索项是“媒体或类或内容”，那么我的查找和替换将执行以下操作：} if (xmlReader!此外，由于find/ place基本上是循环并将HTML附加到字符串(方法的返回类型)，因此我必须保持所有

浏览 0提问于2014-10-07得票数 0

1回答

如何提取<strong>和<br>之间的文本并将其存储在字符串数组中，这些文本位于没有html代码的<p>标记内(例如，等等

java、jsoup

从段落标签中的strong和<br>标签中提取文本作为单独的字符串。我曾尝试使用HTML分割文本，但文本包含<br>代码，如p、strong和nbsp。示例代码： Document doc = Jsoup.parse(HTML); Elements Paragraphs = doc.getElementsByTag(&qu

浏览 37提问于2019-04-29得票数 1

2回答

Python BS4美汤HTML.Parser在网站上不起作用

python、beautifulsoup

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签

浏览 26提问于2019-07-13得票数 2

回答已采纳

1回答

如何使用SGMLParser从HTML中提取指定的文本

python、html、tags、sgml

def start_title(self, attrs): print data<html>

浏览 0提问于2012-02-26得票数 1

回答已采纳

1回答

使用Java中的Jsoup从HTML行获取类名的Get元素(重写)

java、html、css、jsoup

我有一个html行，标签里面有标签，我的一个标签包含多个类。我需要提取带有单个类名的文本(我只知道标签中有一个类名，这可能也会覆盖另一个类)。OverRiddenClass">another text to extract </span></p> 我知道类名"OverRiddenClass“，它凌驾于"AnyClass”类之上，我想使用java中<

浏览 2提问于2014-07-17得票数 0

回答已采纳

5回答

如何使用PHP从HTML文件中提取所有文本？

php、html、regex、parsing、html-content-extraction

如何从HTML文件中提取所有文本但是，我不想提取样式和脚本标记之间的文本现在，我有以下代码 $string = trim(clean(strtolower(strip_tags($html_content)))); $arr = explode(&qu

浏览 0提问于2009-10-02得票数 0

1回答

如何在java中无库情况下解析HTML？

java、html、parsing

我需要解析一个HTML文档，并获得所有的网址和网页内容，并将其保存到数据库中。我可以使用<a标签识别链接标签，但如何从html标签中提取所有内容或有用的文本？

浏览 3提问于2020-02-09得票数 0

1回答

将其他元数据添加到Search Server的文件

asp.net、search、sharepoint-2010、metadata

搜索服务器通过元标签为html文档的所有元数据建立索引。对于其他文件类型，如Word文档、PDF文档等，元数据位于文件本身中。假设我们有一个CMS，其中包含位于数据库中的每个文件的元数据，是否可以以任何方式添加这些数据？

浏览 2提问于2011-03-11得票数 2

回答已采纳

4回答

有什么内置的方式来打印Java格式的文本吗？

java、swing、text、graphics、richtext

所谓样式，我指的是一个文本，其不同的部分有不同的格式，如在写字板。

浏览 1提问于2017-02-20得票数 0

回答已采纳

3回答

如何使用BeautifulSoup查找第一个锚标签的文本

python、beautifulsoup

我有一个这样的HTML结构 <a href="abc.com"> </a> <ahref="xyz.com">comments</a></p> 我想提取第一个锚标签<em

浏览 1提问于2016-04-28得票数 1

3回答

“汤”和“美汤”中的“汤”是什么意思？

beautifulsoup、jsoup

“汤”和“美汤”中的“汤”是什么意思，为什么它被称为“汤”？

浏览 1提问于2014-05-19得票数 10

4回答

如何删除文本python中的所有包

python、python-3.x、web-scraping、beautifulsoup

我想从标签中提取数据，以便简单地检索文本。不幸的是，我不能只提取文本，我总是在这个链接。是否可以从我的文本中删除所有的<img>和<a href>标记？link" href="https://" title="text">https:// link<&#x

浏览 16提问于2022-11-27得票数 0

1回答

正则表达式从html页面中提取锚标签周围的文本

java、html、regex

有没有办法在html页面中提取锚标签周围的文本？我在java中工作，我的研究需要我提取标签内和标签周围的数据。我试过搜索，我找到的只是正则表达式，它只提取锚文本，而不是它周围的单词。

浏览 1提问于2014-03-17得票数 1

3回答

使用PHP获取HTML输出(干净的文本)

php、html、curl、filter

你知道有没有什么函数(PHP)可以清理一些HTML代码(用cURL得到的)并过滤可见文本(浏览器将要显示的文本)。谢谢

浏览 3提问于2011-04-07得票数 0

回答已采纳

1回答

BS4抓取所有内容栏<h2>标签

python、bs4

我目前正在写一个刮板卡在最后一点，讽刺的是，它看起来应该是最容易的。html是一个小弹出窗口，包含以下代码结构。<html lang="en"> <title>Website Title</title> <h2>> 我希望提取的这是文本我想<

浏览 8提问于2017-02-09得票数 0

2回答

缩短的HTML文本和格式错误的标记

html

在我的web应用程序中，如果超过300个字符，我打算缩短一个超长的HTML格式文本字符串，然后在页面上显示这300个字符和一个Read More链接。我遇到的问题是当HTML标记内达到300个字符的限制时，例如：(在这里查找) <a hre="somewhere">liHEREnk&

浏览 3提问于2010-01-01得票数 1

回答已采纳

2回答

从表示为字符串的HTML中提取内容

java、html-parsing

我在String变量中有一个Big html，我想要获取div的内容。我不能依赖正则表达式，因为它可以有嵌套的div。>foo bar<div>good best better</div> <div>test test</div></div><div>foo bar</div></div>"; 那么我怎样才能用一个简单的java程序实现这一点-

浏览 0提问于2011-09-07得票数 0

回答已采纳

2回答

如何使用PHP从此代码中的锚标记中提取id和url？

php、html、regex、tags、extract

我试图从锚标签中提取文本url(href)和id。到目前为止，我可以得到锚标签之间的文本。这是我的密码 <head> <body> </body>这将给出以下结果。 文本<

浏览 1提问于2018-12-01得票数 1

回答已采纳

5回答

如何创建类似facebook分享的URL提取器

php、python、facebook

我需要从网址中提取数据，如标题，描述，和任何视频图像在给定的网址，如facebook分享按钮问候

浏览 0提问于2010-06-09得票数 5

点击加载更多