如何将网页的Html源码转换成org.w3c.dom.Documentin Java?
发布于 2010-02-20 01:10:27
这实际上是一件相当困难的事情,因为任意的HTML网页有时是错误的(主要的浏览器是相当容忍的)。你可能想看看swing html parser,我从来没有试过,但看起来它可能是最好的选择。您还可以尝试类似的方法,并处理可能出现的任何解析异常(尽管我只在xml中尝试过):
import java.io.File;
import org.w3c.dom.Document;
import org.w3c.dom.*;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.DocumentBuilder;
import org.xml.sax.SAXException;
import org.xml.sax.SAXParseException;
...
try {
DocumentBuilderFactory docBuilderFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder docBuilder = docBuilderFactory.newDocumentBuilder();
Document doc = docBuilder.parse (InputStreamYouBuiltEarlierFromAnHTTPRequest);
}
catch (ParserConfigurationException e)
{
...
}
catch (SAXException e)
{
...
}
catch (IOException e)
{
...
}
...发布于 2010-02-20 02:13:41
我推荐http://about.validator.nu/htmlparser/,它实现了HTML5解析算法。Firefox正在用这个HTML解析器替换它自己的HTML解析器。
发布于 2010-02-22 07:58:12
我刚刚开始使用JSoup,这是一个非常棒的Java HTML解析器,它的工作方式有点像jQuery。非常容易使用。
https://stackoverflow.com/questions/2297924
复制相似问题