JSSoup 是一个用于解析 HTML 文档的 Java 库,它类似于 Python 的 BeautifulSoup。JSSoup 提供了非常方便的方法来提取和操作 HTML 文档中的数据。是的,JSSoup 支持提取文本。
JSSoup 通过解析 HTML 文档,构建一个 DOM(文档对象模型)树,然后可以通过这个 DOM 树来查找、遍历和提取文档中的元素和文本。
JSSoup 主要有以下几种类型:
Document
:表示整个 HTML 文档。Element
:表示 HTML 文档中的一个元素。Node
:表示 HTML 文档中的一个节点,包括元素节点、文本节点等。JSSoup 常用于以下场景:
以下是一个简单的示例,展示如何使用 JSSoup 提取 HTML 文档中的文本:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JSSoupExample {
public static void main(String[] args) {
try {
// 解析 HTML 文档
Document doc = Jsoup.connect("https://example.com").get();
// 提取所有段落文本
Elements paragraphs = doc.select("p");
for (Element paragraph : paragraphs) {
System.out.println(paragraph.text());
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
trim()
方法去除字符串两端的空白字符。通过以上方法和示例代码,你应该能够顺利地使用 JSSoup 提取 HTML 文档中的文本。
领取专属 10元无门槛券
手把手带您无忧上云