从Java中的网页中提取HTML

您好！感谢您与我交流。

从Java中的网页中提取HTML内容，可以使用Java内置的URL和URLConnection类来实现。以下是一个简单的示例代码：

import java.net.*;
import java.io.*;

public class WebCrawler {
    public static void main(String[] args) throws Exception {
        String url = "https://www.example.com";
        URLConnection connection = new URL(url).openConnection();
        connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36");
        connection.setDoOutput(true);
        connection.getInputStream();
        BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
        String inputLine;
        StringBuffer response = new StringBuffer();
        while ((inputLine = in.readLine()) != null) {
            response.append(inputLine);
        }
        in.close();
        System.out.println(response.toString());
    }
}

这段代码会从URL指定的网页中提取HTML内容，并输出到控制台。需要注意的是，这段代码是基本的爬虫程序，仅支持GET请求，并且需要设置正确的User-Agent，否则可能会被网站识别为机器人而拒绝访问。

如果您需要进一步提取HTML中的信息，可以使用正则表达式、XPath、CSS选择器等方法来选择特定的HTML元素或属性。同时，也可以使用第三方库，如HtmlUnit、BeautifulSoup等，来简化HTML解析的过程。

希望这个回答能够对您有所帮助。如果您还有其他问题，欢迎继续提问。