在jsoup上获取文本？

在jsoup上获取文本是指使用jsoup这个Java库来解析HTML文档，并提取其中的文本内容。jsoup是一款功能强大且易于使用的HTML解析器，可以方便地从HTML中提取数据。

使用jsoup获取文本的步骤如下：

导入jsoup库：在Java项目中，需要先导入jsoup库。可以通过在项目的构建文件中添加jsoup的依赖，或者手动下载jsoup的jar包并导入到项目中。
创建连接：使用jsoup的connect()方法创建一个连接对象，指定要解析的HTML文档的URL。
发起请求：通过连接对象的get()方法发起HTTP请求，获取HTML文档的内容。
解析文档：使用jsoup的parse()方法将获取到的HTML文档内容解析为一个Document对象。
提取文本：通过Document对象的方法，如text()、ownText()等，提取所需的文本内容。

以下是一个示例代码，演示如何使用jsoup获取文本：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupExample {
    public static void main(String[] args) {
        try {
            // 创建连接
            Document doc = Jsoup.connect("https://example.com").get();
            
            // 解析文档
            Elements elements = doc.select("p"); // 选择所有的<p>标签
            
            // 提取文本
            for (Element element : elements) {
                String text = element.text();
                System.out.println(text);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

在上述示例中，我们首先创建了一个连接对象，指定要解析的HTML文档的URL。然后通过连接对象的get()方法发起请求，获取HTML文档的内容。接着使用select()方法选择所有的<p>标签，并通过循环遍历提取每个标签的文本内容。

推荐的腾讯云相关产品：腾讯云服务器（CVM）、腾讯云对象存储（COS）、腾讯云内容分发网络（CDN）等。你可以通过访问腾讯云官网（https://cloud.tencent.com/）了解更多关于这些产品的详细信息。

页面内容是否对你有帮助？

有帮助

没帮助

如何在特定标记后使用jsoup提取文本

java、twitter、jsoup

我正在使用jsoup来提取tweeter文本。所以html结构是 <p class="js-tweet-text tweet-text">@sexyazzjas There is so much love in the air, Jasmine! Thanks for the shout out. <a href="/search?q=%23ATTLove&src=hash" data-query-source="hashtag_click" class="twitter-hashtag pretty-

浏览 0提问于2013-12-06得票数 0

回答已采纳

2回答

如何从本地驱动器解析多个HTML文件？

html、jsoup

我在我的hdd上有多个HTML文件要用Jsoup来解析。我能够解析一个文件，但不能解析多个文件。我想解析一个文件夹的所有文件。我编写了以下代码，从html文件(在文件夹“C:/html”中名为"file.htm“)中提取文本(在某些in中)： package jsouptest; import java.io.File; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jso

浏览 3提问于2014-10-16得票数 0

回答已采纳

3回答

选择并迭代所有元素

java、jsoup

我将通过jsoup连接到一个url，并获得它的所有内容，但问题是如果我选择like， doc.select("body") 它返回单个元素，但我希望获取页面中的所有元素并逐个迭代它们，例如， <html> <head><title>Test</title></head> <body> <p>Hello All</p> <a href="test.html">Second Page</a> <div>Test</div>

浏览 64提问于2011-08-12得票数 29

回答已采纳

2回答

使用java for Android2.1中的jsoup在<tr>表格行html中进行搜索

java、android、android-listview、jsoup

我正在使用Eclipse设计一个在Android2.1上使用的应用程序，它利用jSoup1.6.1核心库连接到一个网页并抓取html。到目前为止，下面粘贴的应用程序通过jsoup connect方法连接到一个网页，通过jsoup get方法构建一个文档，然后选择所有表行Elements，然后通过jsoup getAllElements获取该表行的所有元素(在本例中是元素)，测试这些元素是否包含文本，如果包含特定的子字符串，则通过jsoup的text方法将文本转换为字符串，并将这些字符串添加到ListArray字符串集合中，在android ListView中显示它们。下面是我的两个问题，然后是

浏览 0提问于2012-01-15得票数 0

回答已采纳

2回答

如何找到与一个单词匹配的所有锚点？

java、html、web-scraping、jsoup

提前感谢您的宝贵时间。代码应该连接到网站，并从包含用户输入的单词的行中抓取操作系统型号。它将搜索该单词，转到该行，并在该行的OS属性中搜索该单词。我不明白为什么我的代码不能工作，希望能得到一些帮助。这是网站代码如下： import java.io.IOException; import java.util.Iterator; import java.util.Scanner; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.s

浏览 2提问于2016-07-22得票数 1

3回答

如何使用Jsoup从html中提取段落文本？

jsoup

import java.io.IOException; import java.util.logging.Level; import java.util.logging.Logger; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class JavaApplication14 { public static void main(String[] args) { tr

浏览 2提问于2013-06-18得票数 6

回答已采纳

1回答

java中的Jsoup.parse()和Jsoup.ParseBodyFragment()有什么区别？

java、jsoup

import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; class JsoupTester { public static void main(String[] args) { String html = "<html><head><title>Sample Title</title></head

浏览 1提问于2020-06-08得票数 1

1回答

当标记没有换行符时如何从html中获得正确的格式化文本

java、html-parsing、jsoup、information-retrieval

我正试图在Jsoup解析库的帮助下解析这个示例html文件。 <html> <body> <p> this is sample text</p> <h1>this is heading sample</h1> <select name="car" size="1"> <option value="Ford">Ford</option><option value="Chevy">Chevy</

浏览 3提问于2014-02-24得票数 1

回答已采纳

1回答

为什么chrome中的html代码和jsoup解析的html代码是不同的？

java、html、google-chrome-devtools、jsoup、html-parsing

我试图从HADOOP问题站点()中提取有关创建问题日期的信息。正如您在这个中所看到的，创建日期是类为活动标记的时间标记之间的文本(例如，<time class=livestamp ...> 'this text' </time>)。所以，我试着用下面的代码解析它。 import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Ele

浏览 0提问于2019-07-11得票数 1

回答已采纳

2回答

提取HTML标记之外的文本

java、android、html、jsoup

我有以下HTML代码： <div class=example>Text #1</div> "Another Text 1" <div class=example>Text #2</div> "Another Text 2" 我想提取标签外的文本，“另一个文本1”和“另一个文本2”。我正在使用JSoup来实现这一目标。有什么主意吗？？谢谢!

浏览 0提问于2013-11-09得票数 3

回答已采纳

1回答

我应该使用什么查询从html页面中提取符号？

java、html、css、jsoup、fileutils

我试图通过使用java的库来提取这个站点JSoup中列出的表情符号。我在页面的html源代码中注意到，每个表情符号都包含在以下div id中：以下符号的代码是 ಠ_ಠ(ヽ)ノ <div id="symbol_0" data-symbols="ヽ(ಠ_ಠ)ノ" contenteditable="true">ヽ(ಠ_ಠ)ノ</div> (‘0’)/

浏览 4提问于2016-05-16得票数 1

回答已采纳

4回答

如何避免Jsoup解析中的html头标记

java、html、parsing、jsoup

我尝试使用Jsoup解析给定的html内容。在Jsoup.parse()之后，html输出将html、head和body标记追加到输入。我只想无视这些。示例输入： <p><b>This <i>is</i></b> <i>my sentence</i> of text.</p> Java代码： import java.io.File; import java.io.IOException; import org.apache.commons.io.FileUtils; import org.jso

浏览 16提问于2014-10-03得票数 24

回答已采纳

2回答

如何在路由器地址上使用jsoup？

java、html、parsing、jsoup

我有个关于珍汤图书馆的问题。我有一个小程序，它下载、解析并获得一个HTML页面的标题，即google.com。 import java.io.File; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; public class HTMLParser{ public static void main(String args[]) { // JSoup Example - Reading H

浏览 4提问于2015-06-20得票数 0

回答已采纳

1回答

使用jsoup从godaddy中提取数据

java、html、parsing、jsoup

我正在使用Jsoup从Godaddy的网站中提取html。我想在下面提取这个特定的片段。我有两个最终网页的特定部分，它说“对不起，google.com已被占用”和HTML码本身。然而，在我的程序中，我有以下内容： import java.io.IOException; 导入org.jsoup.Jsoup； import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class test { public static voi

浏览 0提问于2018-07-29得票数 0

2回答

使用Java将HTML转换为树

java、html、arrays、parsing、tree

因此，我试图编写一个程序，该程序将包含简单HTML语法的文件放入树中，该树将显示标记的层次结构。最终，每一片叶子都会包含一个标签。( p，h，ul等)和文本。这其中有很多非常简单，我计划使用Jtree来显示最终的输出。然而，我遇到的困难是通过语法，并在没有失去关系的情况下，构建一个带有标记的初始树。我认为整个文件将是一个长字符串。程序将找到一个'<‘，其中第二个字符不是'/’，并考虑一个新的标记/叶。然后，代码将继续并检查下一组字符，以查看是否存在另一个“<”，它将指示一个子标记。如果“/”出现在“<”之后的第二个字符中，则代码将在同一级别上移动到下一页。希

浏览 2提问于2016-11-02得票数 3

2回答

如何在Java中用Jsoup从javascript变量中解析html？

java、javascript、html、jsoup

我使用Jsoup来解析html文件，并从元素中提取所有可见文本。问题是javascript变量中的一些html位显然被忽略了。什么是最好的解决方案来让这些比特出来？示例： <!DOCTYPE html> <html> <head> <script> var html = "<span>some text</span>"; </script> </head> <body> <p>text</p> </b

浏览 0提问于2013-07-29得票数 2

1回答

在android中使用jsoup解析html表td内容

java、android、jsoup

我已经为我的应用程序提供了一些html表contents.And，我想使用android.But中的JSOUP解析来解析这些html内容，我对这个JSOUP方法很陌生，不能正确地解析这些html内容。 HTML数据： <table id="box-table-a" summary="Tracking Result"> <thead> <tr> <th width="20%">AWB / Ref. No.</th> <th width=

浏览 1提问于2015-02-05得票数 0

回答已采纳

1回答

在<div><p>数据</p>中获取数据

android、html、dom、jsoup

我正在尝试从下面的标签中获取数据。我做过这件事。 Document doc = Jsoup.parse(currMsg); Elements ele = doc.select("p"); 这将返回<p>data</p>，我只想要data。然后我试着用一个接一个的字符来遍历。我想知道还有什么其他的方法可以很容易地得到data。

浏览 0提问于2014-07-06得票数 0

回答已采纳

3回答

如何仅在java中获取特定标记的消息？

java、jsoup

我的HTML中有这样的标记： <p class="outter"> <strong class="inner">not needed message</strong> NEEDED MESSAGE </p> 我在试着提取“需要的信息” 但如果我这样做 String results = document.select("p.outter").text(); System.out.println(results); 它打印：不需要messageNEEDED消息所以问题是：如何获得特

浏览 1提问于2015-10-19得票数 1

回答已采纳

3回答

如何让班级里的孩子学习jsoup？

java、jsoup

我想从网站上收集评论。我在jsoup的类中获取p标签时遇到了麻烦。示例html代码如下 <html> <head> <title>My webpage</title> </head> <body> <div class="container"> <div class="comment"> <p>This is comment</p> </div> </div> <

浏览 0提问于2016-09-13得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在jsoup上获取文本？

相关·内容

如何在特定标记后使用jsoup提取文本

如何从本地驱动器解析多个HTML文件？

选择并迭代所有元素

使用java for Android2.1中的jsoup在<tr>表格行html中进行搜索

如何找到与一个单词匹配的所有锚点？

如何使用Jsoup从html中提取段落文本？

java中的Jsoup.parse()和Jsoup.ParseBodyFragment()有什么区别？

当标记没有换行符时如何从html中获得正确的格式化文本

为什么chrome中的html代码和jsoup解析的html代码是不同的？

提取HTML标记之外的文本

我应该使用什么查询从html页面中提取符号？

如何避免Jsoup解析中的html头标记

如何在路由器地址上使用jsoup？

使用jsoup从godaddy中提取数据

使用Java将HTML转换为树

如何在Java中用Jsoup从javascript变量中解析html？

在android中使用jsoup解析html表td内容

在<div><p>数据</p>中获取数据

如何仅在java中获取特定标记的消息？

如何让班级里的孩子学习jsoup？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐