文章/答案/技术大牛

发布

社区首页 >问答首页 >如何将网页的Html源码转换成java中的org.w3c.dom.Document？

问如何将网页的Html源码转换成java中的org.w3c.dom.Document？
EN

Stack Overflow用户

提问于 2010-02-20 00:34:29

回答 3查看 3.7K关注 0票数 2

如何将网页的Html源码转换成org.w3c.dom.Documentin Java？

java

html

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-02-20 01:10:27

这实际上是一件相当困难的事情，因为任意的HTML网页有时是错误的(主要的浏览器是相当容忍的)。你可能想看看swing html parser，我从来没有试过，但看起来它可能是最好的选择。您还可以尝试类似的方法，并处理可能出现的任何解析异常(尽管我只在xml中尝试过)：

import java.io.File;
import org.w3c.dom.Document;
import org.w3c.dom.*;

import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.DocumentBuilder;
import org.xml.sax.SAXException;
import org.xml.sax.SAXParseException; 

...

try {
    DocumentBuilderFactory docBuilderFactory = DocumentBuilderFactory.newInstance();
    DocumentBuilder docBuilder = docBuilderFactory.newDocumentBuilder();
    Document doc = docBuilder.parse (InputStreamYouBuiltEarlierFromAnHTTPRequest);
}
catch (ParserConfigurationException e)
{
    ...
}
catch (SAXException e)
{
    ...
}
catch (IOException e)
{
    ...
}

...

票数 1

Stack Overflow用户

发布于 2010-02-20 02:13:41

我推荐http://about.validator.nu/htmlparser/，它实现了HTML5解析算法。Firefox正在用这个HTML解析器替换它自己的HTML解析器。

票数 2

Stack Overflow用户

发布于 2010-02-22 07:58:12

我刚刚开始使用JSoup，这是一个非常棒的Java HTML解析器，它的工作方式有点像jQuery。非常容易使用。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2297924

复制

相似问题

问如何将网页的Html源码转换成java中的org.w3c.dom.Document？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将网页的Html源码转换成java中的org.w3c.dom.Document？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将网页的Html源码转换成java中的org.w3c.dom.Document？
EN