前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Jsoup过滤html标签并不删除换行符

Jsoup过滤html标签并不删除换行符

作者头像
DencyCheng
发布2020-06-21 16:41:40
3.9K0
发布2020-06-21 16:41:40
举报
文章被收录于专栏:SpringBootSpringBoot

使用了两种抽取文本的方法:

代码语言:javascript
复制
  1. Document doc = Jsoup.parse(html);
  2. String text = doc.text();

或者

代码语言:javascript
复制
String text = Jsoup.clean(html,Whitelist.none());

解决办法:

使用jsoup.clean的另一种方法重载:

代码语言:javascript
复制
public static String clean(String bodyHtml, String baseUri, Whitelist whitelist, Document.OutputSettings outputSettings)

bodyHtml —不安全的html片段

baseUri —将html中相对路径转换为绝对路径的URL

whitelist —白名单允许的html标签和属性

outputsettings —文档输出设置,控制精细打印

具体使用时:

代码语言:javascript
复制
String text =Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-06-18 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 解决办法:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档