问Java HTML解析
EN

Stack Overflow用户

提问于 2008-10-26 13:57:00

回答 10查看 109.8K关注 0票数 52

我正在开发一个从网站上抓取数据的应用程序，我想知道我应该如何去获取数据。具体地说，我需要一些使用特定CSS类的div标记中包含的数据--目前(出于测试目的)，我只是在检查

div class = "classname"

在HTML的每一行中-这是有效的，但我不禁觉得有一个更好的解决方案。

有没有什么好的方法可以让我给一个类一行HTML，并有一些很好的方法，比如：

boolean usesClass(String CSSClassname);
String getText();
String getLink();

html

parsing

web-scraping

java

回答 10

Stack Overflow用户

回答已采纳

发布于 2008-10-26 16:06:04

几年前，我将JTidy用于同样的目的：

http://jtidy.sourceforge.net/

"JTidy是HTML的一个Java端口，一个超文本标记语言语法检查器和漂亮的打印机。像它的非Java表亲一样，JTidy可以被用作清理错误和错误超文本标记语言的工具。此外，JTidy为正在处理的文档提供了一个DOM接口，这使得你能够有效地使用JTidy作为真实超文本标记语言的DOM解析器。

JTidy是由Andy Quick编写的，他后来辞去了维护者的职务。现在JTidy是由一群志愿者维护的。

可以在JTidy SourceForge项目页面上找到有关JTidy的更多信息。“

票数 18

Stack Overflow用户

发布于 2011-05-18 17:33:55

另一个可能对HTML处理有用的库是jsoup。Jsoup试图清理格式错误的HTML，并允许使用类似于标签选择器语法的jQuery在Java语言中进行html解析。

http://jsoup.org/

票数 60

Stack Overflow用户

发布于 2008-10-26 14:55:57

前面提到的主要问题是格式错误的HTML，因此html清理器或HTML-XML转换器是必须的。一旦获得了XML代码(XHTML)，就有很多工具可以处理它。您可以使用一个简单的SAX处理程序或任何基于树的方法(DOM、JDOM等)来获取它，该处理程序只提取您需要的数据。它甚至可以让你修改原始代码。

下面是一个示例代码，它使用HTML cleaner获取使用某个类的所有DIVs，并打印出其中的所有文本内容。

import java.io.IOException;
import java.net.URL;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;

/**
 * @author Fernando Miguélez Palomo <fernandoDOTmiguelezATgmailDOTcom>
 */
public class TestHtmlParse
{
    static final String className = "tags";
    static final String url = "http://www.stackoverflow.com";

    TagNode rootNode;

    public TestHtmlParse(URL htmlPage) throws IOException
    {
        HtmlCleaner cleaner = new HtmlCleaner();
        rootNode = cleaner.clean(htmlPage);
    }

    List getDivsByClass(String CSSClassname)
    {
        List divList = new ArrayList();

        TagNode divElements[] = rootNode.getElementsByName("div", true);
        for (int i = 0; divElements != null && i < divElements.length; i++)
        {
            String classType = divElements[i].getAttributeByName("class");
            if (classType != null && classType.equals(CSSClassname))
            {
                divList.add(divElements[i]);
            }
        }

        return divList;
    }

    public static void main(String[] args)
    {
        try
        {
            TestHtmlParse thp = new TestHtmlParse(new URL(url));

            List divs = thp.getDivsByClass(className);
            System.out.println("*** Text of DIVs with class '"+className+"' at '"+url+"' ***");
            for (Iterator iterator = divs.iterator(); iterator.hasNext();)
            {
                TagNode divElement = (TagNode) iterator.next();
                System.out.println("Text child nodes of DIV: " + divElement.getText().toString());
            }
        }
        catch(Exception e)
        {
            e.printStackTrace();
        }
    }
}

票数 20

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/238036

复制

相似问题

问Java HTML解析
EN

回答 10

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java HTML解析EN

回答 10

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java HTML解析
EN