html的解析方式 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

用DOM方式解析HTML

、、

我们有一个包含静态信息的古老(内部)网站。我们要用更好的东西来代替它，所以我需要获取所有的信息。我过去经常通过regex实现这一点，但最近我偶然发现一些文章指出使用regex解析来自的信息是。所以我决定学习一些新的技巧，重新开始，用DOM的方式来做。我需要的HTML部分如下所示： <tr> &l

浏览 3提问于2013-02-28得票数 3

回答已采纳

2回答

内建方式来解析任何原始的HTML

、、、、

我开始编写一个应用程序，它应该从任何指定的HTML页面中检索元标记内容。由于我使用的是.NET 2.0，所以我不能使用LINQ或其他现代的东西。因此，我尝试使用XmlDocument类。不幸的是，它不能处理无效的XML文档，这是大多数HTML文档。我最好避免使用HtmlAgilityPack的另一个原因是，它对于

浏览 1提问于2012-02-04得票数 0

2回答

HTML: iPhone解析标准方式或示例：

我正在使用NSURLConnection访问网页，并在我的iPhone客户端应用程序中以编程方式下载了一个超文本标记语言数据。我想从超文本标记语言中解析和挑选一些描述数据，tags..It太脏了，我的数据也随处可见。我想问你，在iPhone开发中，有没有一种标准或简单的方法来解析超文本标记语言数据。附言:我知道XML解析。

浏览 1提问于2009-09-10得票数 1

1回答

漂亮汤删除标签错误

、、、

因此，我正在抓取一些内容，并试图用python中的漂亮汤删除html标记，但保留内容。问题是，很明显，我正在抓取的一些页面中有html错误。例如：当发生这种情况时，get_text()将删除我想要的大部分文本。我试着用regex来做这件事，结果还是遇到了同样的问题： description = re.sub(&quo

浏览 3提问于2015-03-12得票数 0

回答已采纳

1回答

如何在java中用HTML获取元素的XPath？

、、、、

(例如，我想为一个XPath元素检索<a> ) 我尝试了不同的解决方案，但在正确解析html时经常遇到问题。是否有一个像这样的运行中的html清洁器？--这是我目前发现的唯一的功能清洁器，但它是一个在线工具。有了它，我就可以轻松地解析HTML并进入XPath。我喜欢与jOOX交互的方式，只要我能够正确地以编程方式解析html<

浏览 2提问于2018-10-12得票数 0

回答已采纳

1回答

BeautifulSoup:如何忽略虚假的结束标记

、、、

我读过很多关于BeautifulSoup的好东西，这就是为什么我现在正试图用它来刮一组格式错误的HTML的网站。不幸的是，BeautifulSoup的一个特性就是目前的展示障碍：当BeautifulSoup遇到一个从未打开的结束标记(在我的例子中是</p>)时，它决定结束文档。而且，在本例中，find方法似乎没有搜索(自诱导的) </html>标记后面的

浏览 1提问于2015-12-19得票数 7

回答已采纳

1回答

解析为php的Html文件与解析.php文件的方式不同*

、

我添加了这个添加到我的.htaccess中，因为我需要一些html文件的行为方式类似于php文件。奇怪的是，当我加载这些文件时，"json_decode“和"json_encode”会产生一个“未定义的函数”-error。当我在一个普通的php文件中使用它们时，一切正常。看起来像是使用了一个更老版本的php来解

浏览 0提问于2013-06-28得票数 0

回答已采纳

1回答

用java将HTML文件打印到打印机

、、、

我需要以编程方式将html打印到打印机。我不想打印html标签，我想在打印之前解析html标签。新建文档writer2 =HtmlWriter.getInstance( HtmlWriter，new FileOutputStream("itext.html"))；我知道需要以

浏览 1提问于2009-09-16得票数 5

4回答

我正在使用Aspose.Cells以编程方式构建一个Excel文档。这很好用。不过，其中一个单元格是一块原始的HTML。我想知道是否有可能告诉Excel (以任何方式，包括GUI -您不需要了解Aspose API)将单元格解析并显示为HTML。现在，它只显示为文本格式的原始HTML、标签和所有内容。我知道Excel能够将HTML粘贴到其中，但它看起来只是自己解析它，然后Excel为您处理它，并且它不存储HT

浏览 1提问于2009-12-04得票数 26

回答已采纳

1回答

PythonBeautiful外地get_text()没有获得所有文本

、、、、

我正在尝试使用get_text()方法从html标记中获取所有文本。我使用Python2.7和Beautiful外地4.4.0。它在大多数情况下都有效。但是，这种方法有时只能从标签中获取第一段。jk=0f5592c8191a21af"soup = BeautifulSoup(site, "html.parser")然而，利用上面的代码，我只能得到“请注意，这是一个为期一年的合同任务。候选人不能开始一项任务，直到背景检查和药物测试完成

浏览 5提问于2015-09-19得票数 4

回答已采纳

1回答

BeautifulSoup (bs4)：如何忽略格式错误的HTML中的结束标记

、、、

我正在使用优美汤(bs4)来废弃HTML页面。它有list <ul>，它有<li>，它包含一些有趣的链接(href)。<ul></ul> 问题:当我使用find_all()提取所有的<ul>时，我不会得到它，因为格式错误的结束</p>没有打开<p>。浏览器会忽略这一点，并呈现ok，但是BS4会破坏解析。是否有人试

浏览 3提问于2016-04-11得票数 3

3回答

解析Java中的meta标签

、、、

我有一个HTML文档集合，需要解析部分中标记的内容。这些是我唯一感兴趣的HTML标记，也就是说，我不需要解析部分中的任何内容。有没有人建议我可以用一种可以处理格式错误的HTML的方式</em

浏览 0提问于2008-11-18得票数 2

回答已采纳

1回答

在BeautifulSoup 4中将标签内容提取为文本(相当于QUOTE_TAGS)

、、

HTML3有一个很好的特性，那就是它不会试图将<textarea>标签的内容解释为BeautifulSoup --它会将其引用为文本。通过修改QUOTE_TAGS属性，可以将此行为应用于其他标记。下面的展示了它是如何有用的。在BeautifulSoup 4中，没有QUOTE_TAGS属性，我认为如果不自己创建html.parser子类，就无法获得相同的功能。我是不是遗漏了什么？您将如何使用BS4解决上面链接的问题？

浏览 1提问于2013-05-01得票数 1

1回答

Objective-C事件驱动的HTML解析

、、、、

我需要能够以事件驱动的方式解析HTML代码片段。例如，如果解析器发现一个HTML标签，它应该通知我，并将HTML标签、值、属性等传递给委托。我不能使用NSXMLParser，因为我有杂乱的超文本标记语言。有没有一个有用的库来解决这个问题呢？我想要做的是解析HTML，创建一个NSAttributedArray并在UITextView中显示它。

浏览 0提问于2014-04-03得票数 0

1回答

网页抓取为html网页，但需要重复在很多链接？

、、、、

我编写了以下代码，用于为一个URL解析HTML的某些部分。我的意思是解析页面const URL= ''

浏览 1提问于2022-07-07得票数 1

回答已采纳

1回答

格式良好的html5加载速度比糟糕的要快吗？

、、

html5不像xml那么严格，所以即使这个糟糕的文件也会被w3c html5 验证。<title>crappy html5</title><h1>crappy html5</h1><ol class=navigato

浏览 0提问于2018-11-02得票数 0

回答已采纳

2回答

从格式错误的HTML中获取列表数据

、

我试图从列表数据格式错误的<UL>中获取数据。最重要的是我获取链接(如果有的话)和文本。不幸的是，BeutifulSoup试图修复格式错误的HTML并造成比需要更多的损害：html = '<UL><LI>Blah><LI><A>Blah</A><LI><A>Blah2&l

浏览 3提问于2014-07-28得票数 2

回答已采纳

2回答

为什么setHTML(“<table><tr>.</tr></table>”)；然后返回“<getHTML><tbody><tr>.</tr></tbody></table>”(Gwt)？

我不明白Gwt setHTML & getHTML是如何工作的。这似乎不一致。myInlineHtml.getHTML());显然，当我们为myInlineHtml设置html为什么会发生这种情况，因为当您想获得Html值时，如果您认为它的值与我

浏览 2提问于2014-04-06得票数 0

回答已采纳

1回答

分析html页面时丢失的信息

、、、

当我解析这个页面时，我发现一些信息丢失了，我使用soup.prettify()打印html文档，并且html文档与我使用urllib2.openurl()获得的文档不同，所以丢失了一些信息。hotelUrlTag in subHotelUrlTags:我尝试使用HtmlParser来做同样的事情

浏览 1提问于2013-05-07得票数 0

回答已采纳

1回答

验证错误(如“杂散的开始标记html")，我似乎无法在header.php上动摇。

、、、

DOCTYPE html>↩<?--><html class="no-js" <?php language_attributes(); ?>>

浏览 4提问于2017-04-06得票数 2

回答已采纳

点击加载更多

用DOM方式解析HTML

内建方式来解析任何原始的HTML

HTML: iPhone解析标准方式或示例：

漂亮汤删除标签错误

如何在java中用HTML获取元素的XPath？

BeautifulSoup:如何忽略虚假的结束标记

解析为php的Html文件与解析.php文件的方式不同*

用java将HTML文件打印到打印机

Excel可以将单元格解释为HTML吗？

PythonBeautiful外地get_text()没有获得所有文本

BeautifulSoup (bs4)：如何忽略格式错误的HTML中的结束标记

解析Java中的meta标签

在BeautifulSoup 4中将标签内容提取为文本(相当于QUOTE_TAGS)

Objective-C事件驱动的HTML解析

网页抓取为html网页，但需要重复在很多链接？

格式良好的html5加载速度比糟糕的要快吗？

从格式错误的HTML中获取列表数据

为什么setHTML(“<table><tr>.</tr></table>”)；然后返回“<getHTML><tbody><tr>.</tr></tbody></table>”(Gwt)？

分析html页面时丢失的信息

验证错误(如“杂散的开始标记html")，我似乎无法在header.php上动摇。

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐