Jsoup - 如何通过逃避不删除不需要的HTML来清理html？

关于使用Jsoup清理HTML的问题，可以使用Jsoup的Cleaner类来实现。Cleaner类可以帮助您清理不安全或不需要的HTML元素，同时保留所需的HTML内容。

以下是一个使用Jsoup清理HTML的示例代码：

import org.jsoup.Jsoup;
import org.jsoup.safety.Cleaner;
import org.jsoup.safety.Whitelist;

public class JsoupExample {
    public static void main(String[] args) {
        String html = "<h1>Hello, <span style=\"color:red\">Jsoup</span>!</h1>";
        String cleanHtml = cleanHtml(html);
        System.out.println("Original HTML: " + html);
        System.out.println("Cleaned HTML: " + cleanHtml);
    }

    public static String cleanHtml(String html) {
        // 创建一个Cleaner对象
        Cleaner cleaner = new Cleaner(new Whitelist().addTags("span"));

        // 使用Cleaner对象清理HTML
        String cleanHtml = cleaner.clean(html);

        return cleanHtml;
    }
}

在这个示例中，我们创建了一个Cleaner对象，并使用Whitelist对象指定允许保留的HTML标签。在这个例子中，我们只允许保留<span>标签。然后，我们使用Cleaner对象的clean方法清理HTML，并返回清理后的HTML。

运行这个示例代码，您将看到以下输出：

Original HTML: <h1>Hello, <span style="color:red">Jsoup</span>!</h1>
Cleaned HTML: <span>Jsoup</span>

在这个示例中，我们成功地清理了HTML，只保留了<span>标签，同时删除了其他不需要的HTML元素。

您可以根据需要修改Whitelist对象，以保留或删除不需要的HTML元素。更多关于Jsoup的使用方法和示例，请参考Jsoup的官方文档：https://jsoup.org/

相关·内容

【Java 进阶篇】使用 Java 和 Jsoup 进行 XML 处理

它提供了一种简单的方式来遍历、搜索和修改文档树，使得XML处理变得非常容易。除了XML，Jsoup还支持HTML5，因此您可以用它来处理网页数据。...elements = doc.select("tagname.classname[attribute=value]"); 让我们通过一个示例来演示如何使用 Jsoup 查询元素。...爬取网页：Jsoup 在网页抓取方面非常有用，您可以编写爬虫来提取网站上的信息。过滤和清理HTML：Jsoup 允许您清理和过滤HTML，以防止跨站脚本攻击。...总结本篇博客介绍了如何使用 Java 和 Jsoup 来解析和处理XML数据。我们了解了如何加载、解析和操作XML文档，以及如何使用查询和选择功能来提取特定元素。...此外，我们还提到了如何使用 Jsoup 处理HTML页面，以及一些高级用法和安全注意事项。无论您是处理XML数据、抓取网页信息还是进行数据清理，Jsoup 都是一个功能强大且易于使用的工具。

2943 0

Jsoup解析器

它提供了一种非常方便的方式来提取和操作数据，从单个的 HTML 文件到整个网站的数据。XML解析即读写XML文档中的数据。...它提供了一套非常省力的API，可通过CSS以及类似于jQuery的操作方法来取出和操作数据· PULL：Android操作系统内置的解析器，支持SAX思想Jsoup解析器_Jsoup快速入门(jsoup...总的来说，Jsoup 是一个强大的 Java 库，用于处理 HTML 文档。它提供了多种功能，包括解析 HTML、提取数据、修改文档内容、清理用户输入的 HTML，以及发送 HTTP 请求等。...修改文档：修改元素的内容、属性或样式。插入、删除或替换 HTML 元素。清理 HTML（例如，删除所有脚本和样式元素）。...清理用户输入：提供了一种机制来清理用户提供的 HTML，以防止跨站脚本攻击（XSS）。可以配置清理器以允许或拒绝特定的 HTML 标签和属性。

1100 0

Java爬虫之JSoup使用教程

是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。...操纵HTML元素，属性和文本。根据安全的白名单清理用户提交的内容，以防止XSS攻击。输出整洁的HTML。...从URL，文件或字符串中刮取并解析HTML 查找和提取数据，使用DOM遍历或CSS选择器操纵HTML元素，属性和文本根据安全的白名单清理用户提交的内容，以防止XSS攻击输出整洁的HTML 文档地址...static String clean(String bodyHtml, Whitelist whitelist) 从输入HTML返回安全的HTML，通过解析输入HTML并通过允许的标签和属性的白名单进行过滤...2. org.jsoup.nodes.Document类该类表示通过Jsoup库加载HTML文档。可以使用此类执行适用于整个HTML文档的操作。

10.4K2 0

Jsoup（一）Jsoup详解（官方）

它提供了一套非常省力的API，　可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。...1.2、Jsoup的主要功能 1）从一个URL，文件或字符串中解析HTML 2）使用DOM或CSS选择器来查找、取出数据 3）可操作HTML元素、属性、文本注意：jsoup..."; Document doc = Jsoup.parse(html); 　　其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整...如果不需要可以传入一个空的字符串。 ...(.logo) 表示不包含 class="logo" 元素的所有 div 列表　　　　　　:contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup

8.5K5 0

手把手教你从零开始用Java写爬虫

目标爬取全景网图片，并下载到本地收获通过本文，你将复习到： IDEA创建工程 IDEA导入jar包爬虫的基本原理 Jsoup的基本使用 File的基本使用...Jsoup可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。...二、爬取思路通过Java向全景网发送GET请求，以获取HTML文件。...如果不需要可以传入一个空的字符串 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); 五、使用DOM方法来遍历一个文档...appendElement(String tagName) prependElement(String tagName) html(String value) 六、使用选择器语法来查找元素（类似于

1.5K2 0

高效 Java 人必须知道的十大框架

Junit 允许多个测试一个接一个，或是并发同时执行，并且会实时返回测试结果，而且还带有进度条，提示开发者测试进度如何。一般当测试正常进行时，进度条是绿的;而当遇到了错误，就会变红。...反射是这里的关键，用于识别在运行时序列化的对象图的结构。对象不需要修改。任何内部字段都可以使用 XStream 序列化。...07. jsoup jsoup 是一个有用的 Java 库，用于处理和解析 HTML。Jsoup 提供了一个有用的用于提取数据的 API。jsoup 中实现的标准是 WHATWG HTML5。...和最新的浏览器作法一样，jsoup 将 HTML 解析为 DOM。...它的用途包括清理和操纵 HTML 元素和属性，以检索用户提交的数据并过滤掉 XSS 攻击属性，使用 jsoup 还可以完成更多功能。 08.

8872 0

让我教你怎么做个人_如何制作app平台

没有服务端 jsoup 我无意听到大牛同事说到解析html，比较有兴趣去搜索这是什么玩意儿，知道了一个强大的东西jsoup，jsoup能解析html，即网站，于是我的微言脱离了单机版。...我选择这种方式有个最大的好处就是数据不需要本人维护，巧妙地避开了我不会服务端开发，更不需要做接口；解析html也有个最大的弊端，一旦对方网站节点变化了，或许您的app就挂了，必须及时去更新。...标签，很好，jsoup有html()方法。...题外可能您担心，jsoup解析html，这样爬虫难道不侵权吗？是的，我也担心，所以我的app也只在我的群里“宣传宣传”。...本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

1.2K2 0

Java实现的简单小爬虫

背景本文简述用Java写个简单的爬虫，通过jsoup爬取HTML，获得HTML中的数据。...主要步骤：发送请求获得 HTML 文本解析 HTML 格式的文本，从特定 HTML 标签中获得想要的数据分解过程： 1、Java 发送网络请求 2、使用 jsoup类库解析和定位到想要的内容...jsoup 是一个用于处理 HTML 的 Java 库。...jsoup实现了WHATWG HTML5规范，并将 HTML 解析为与现代浏览器相同的 DOM。 jsoup实现了 HTML5规范，可将 HTML 解析为与现代浏览器相同的 DOM。...主要能力：从 URL、文件或字符串中抓取和解析HTML 使用 DOM 遍历或 CSS 选择器查找和提取数据操作HTML 元素、属性和文本根据安全白名单清理用户提交的内容，以防止XSS攻击输出整洁的

5872 0

使用Java进行网页抓取

Part 1 使用JSoup配合Java抓取网页 JSoup可能是使用Java进行网页抓取最常用的库了。让我们使用这个库来创建一个Java网页抓取工具。...这种快捷的方式没有做任何错误处理。更好的方法是创建一个函数。此函数以URL作为参数。首先，创建一个连接并将其存储在一个变量中。之后，get()调用连接对象的方法来检索HTML文档。...HtmlUnit使用WebClient类来获取页面。第一步是创建此类的实例。在这个例子中，不需要CSS渲染，也没有使用JavaScript。我们可以设置选项来禁用这两个。...如果您已经了解Java，则可能不需要探索用于网络抓取的任何其他语言。不过，如果您想了解如何使用Python进行网页抓取，我们有一个关于Python 网页抓取的教程。...有许多强大的Java库用于网页抓取。其中两个例子分别是JSoup和HtmlUnit。这些库可帮助您连接到网页并提供许多方法来提取所需的信息。

3.9K0 0

Xpath、Jsoup、Xsoup(我的Java爬虫之二)

参考： http://www.w3school.com.cn/xp… 暂时整理这些，如有需要，可去w3school查阅 Jsoup Jsoup 是一款 Java 的 HTML 解析器，可直接解析某个...如在加载文件的时候发生错误，将抛出IOException，应作适当处理。 baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。...Selector选择器概述 tagname: 通过标签查找元素，比如：a ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找元素 #id: 通过...，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素 [attr=value]: 利用属性值来查找元素，比如：[width=500] [attr^=value], [attr$...，搜索不区分大不写，比如： p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本的元素 :matches(regex): 查找哪些元素的文本匹配指定的正则表达式

1.4K2 0

如何用Java实现网页抓取和数据提取？

下面将详细介绍如何使用这些库来实现网页抓取和数据提取。一、网页抓取网页抓取是指通过程序访问网页并获取网页内容。在Java中，我们可以使用HttpClient库来发送HTTP请求并获取网页内容。...二、数据提取在网页抓取的基础上，我们通常需要从抓取的网页内容中提取有用的数据。在Java中，我们可以使用Jsoup库来解析HTML文档并提取数据。...下面是一个示例代码，演示如何使用Jsoup来提取数据： 1、添加Maven依赖首先，需要在项目的pom.xml文件中添加以下Maven依赖： <dependency...在选择到目标元素后，我们可以通过调用text方法来获取元素的文本内容。通过使用Java中的HttpClient和Jsoup库，我们可以很方便地实现网页抓取和数据提取功能。...网页抓取可以通过发送HTTP请求并获取响应来实现，而数据提取可以通过解析HTML文档并选择特定的元素来实现。这些工具和库提供了丰富的API和方法，使得网页抓取和数据提取变得简单而高效。

3181 0

记一次jsoup的使用

Jsoup是用于解析HTML，就类似XML解析器用于解析XML。Jsoup它解析HTML成为真实世界的HTML。它与jquery选择器的语法非常相似，并且非常灵活容易使用以获得所需的结果。... 1.10.2 应用从URL获取HTML来解析 Document doc = Jsoup.connect...，比如：a; ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找元素; '#id': 通过ID查找元素，比如：#logo;...，比如：div:has(p)表示哪些div包含了p元素 :not(selector): 查找与选择器不匹配的元素，比如：div:not(.logo) 表示不包含 class="logo" 元素的所有...div 列表 :contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如：p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本的元素

1.5K3 0

Java高效开发12个精品库

比如，给开发者提供了简洁的图形界面，可以轻松地写出可重复测试的代码，允许并发同时执行，还允许开发者创建测试套件 (Test Suite) 来查看、检测整体的测试进度及测试期间发生的副作用等。...它的功能在基于外观的简单日志API，并将客户端API与日志后端分开。 ? 通过向classpath中添加所需的绑定，可以发现其后端。...08. jsoup jsoup是一个很实用的Java库，用于处理和解析HTML。Jsoup提供了一个有用的用于提取数据的API。jsoup中实现的标准是WHATWG HTML5。...和最新的浏览器作法一样，jsoup将HTML解析为DOM。 ?...它允许解析来自任何URL或文件的HTML，清理和操纵HTML元素和属性，以检索用户提交的数据并过滤掉XSS攻击属性，使用jsoup还可以完成更多功能。 09.

1.3K4 0

Jsoup 基础知识

"; Document doc = Jsoup.parse(html); 其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整...如在加载文件的时候发生错误，将抛出IOException，应作适当处理。 baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。...Selector选择器概述 tagname: 通过标签查找元素，比如：a ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找元素 #id: 通过...:not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表 :contains(text): 查找包含给定文本的元素...，搜索不区分大不写，比如： p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本的元素 :matches(regex): 查找哪些元素的文本匹配指定的正则表达式

3.7K1 0

Java学习笔记, 不断更新

html文档：Document 元素操作：Element 节点操作：Node 官方API：https://jsoup.org/apidocs/org/jsoup/nodes/Document.html...一、解析HTML并取其内容 Document doc = Jsoup.parse(html); 二、解析一个body片断 Document doc = Jsoup.parseBodyFragment...如果不需要可以传入一个空的字符串 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); 五、使用DOM方法来遍历一个文档...18 public String[] list(FilenameFilter filter) 返回由包含在目录中的文件和目录的名称所组成的字符串数组，这一目录是通过满足指定过滤器的抽象路径名来表示的。...密码等 MqttMessage MQTT消息，保存应用程序有效负载和指定消息如何传递的选项消息

1K4 0

使用Java Rest Client操作Elasticsearch

上文说到es支持rest的访问方式，那么我们完全可以使用httpclient或者jsoup来直接发送http请求不就行了吗？...其实是可以的，使用httpclient和jsoup来发送curl的命令也能操作es，获取结果。这里面有一个需要注意的地方。...httpclient和jsoup都不直接支持发送DELETE方法带参数的请求，这一点是个小缺陷，如果这个不支持，意味着一些删除操作比如delete by query可能支持不太好。...jsoup是完全不支持，而在httpclient里面我们可以通过继承重写HttpEntityEnclosingRequestBase来满足，删除请求带参数体，下面来看下如何使用：继承重写的代码：然后使用...，如何使用ES的RestClient来操作ES：总结： ES官网提供的RestClient还支持nio实现的异步非阻塞的方式多线程多送请求，通过回调函数来处理响应的结果，当然了权限认证，超时中断，失败重试

2.9K5 0

javahtml转word_poi将word转换成html

最近写一个系统，需要把复文本的数据生成一个word文档，网上查了一些资料都觉的有点老了，就自己想了一个（暂时可以使用纯文本和表格），借助office本身可以存html的机制！还借助jsoup！...引入包的： org.jsoup jsoup 1.10.3</version...Document document=Jsoup.parse(conte); Element body=document.body(); body.html...写的简单哈！有不足之处还望指点！！版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。...如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

1.4K2 0

XML学习笔记

在html中不区分大小写，在xml中严格区分。 2. 在HTML中，有时不严格，如果上下文清楚地显示出段落或者列表键在何处结尾，那么你可以省略或者之类的结束标记。...在XML文档中，空白部分不会被解析器自动删除；但是html是过滤掉空格的。语法基本语法 1.xml后缀名为.xml 2.xml第一行必须定义为文档声明(例如：<?...Jsoup:是一款JAVA的HTML解析器，可直接解析URL地址，HTML文本内容 PULL:Android操作系统内置的解析器，基于sax Jsoup的学习https://jsoup.org/download...的常见对象： 1.Jsoup:工具类，可以解析HTML或者XML，返回Document对象 parse:解析HTML或者XML，返回Document对象。...，attr(String attrName)属性名称不区分大小写获取文本内容，String text() 获取标签体在内的所有内容，String html() 4.Element:元素对象 5.Node

6280 0

数据结构思维第六章树的遍历

短语This is a title和Hello world!是实际出现在页面上的文字；其他元素是指示文本应如何显示的标签。...当我们的爬虫下载页面时，它需要解析 HTML，以便提取文本并找到链接。为此，我们将使用jsoup，它是一个下载和解析 HTML 的开源 Java 库。...请见 https://jsoup.org/apidocs/org/jsoup/select/Selector.html。在你继续之前，你应该仔细阅读这些类的文档，以便知道他们能做什么。...通过进行递归调用，recursiveDFS使用调用栈（http://thinkdast.com/callstack）来跟踪子节点并以正确的顺序处理它们。...有两个原因：如果你将自己限制于一小部分方法 - 也就是小型 API - 你的代码将更加易读，更不容易出错。例如，如果使用列表来表示栈，则可能会以错误的顺序删除元素。

8192 0

Jsoup代码解读之一-概述

今天看到一个用python写的抽取正文的东东，美滋滋的用Java实现了一番，放到了webmagic里，然后发现Jsoup里已经有了…觉得自己各种不靠谱啊！算了，静下心来学学好东西吧！...Jsoup是Java世界用作html解析和过滤的不二之选。支持将html解析为DOM树、支持CSS Selector形式选择、支持html过滤，本身还附带了一个Http下载器。...examples包里提供了两个例子，解析html后，分别用CSS Selector以及NodeVisitor来操作Dom元素。这里用ListLinks里的例子来说明如何调用Jsoup： ?...就是说你想用XML的一套API来操作Jsoup的结果是办不到的，但是正因为如此，才使得Jsoup可以抛弃xml里一些繁琐的API，使得代码更加简单。...还有一种方式是通过NodeVisitor来遍历DOM树，这个在对整个html做分析和替换时比较有用： ? 下一节将从DOM结构开始对Jsoup代码进行分析。

7932 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云