使用了两种抽取文本的方法:
Document doc = Jsoup.parse(html);
String text = doc.text();
或者
String text = Jsoup.clean(html,Whitelist.none());
使用jsoup.clean的另一种方法重载:
public static String clean(String bodyHtml, String baseUri, Whitelist whitelist, Document.OutputSettings outputSettings)
bodyHtml
—不安全的html片段
baseUri
—将html中相对路径转换为绝对路径的URL
whitelist
—白名单允许的html标签和属性
outputsettings —文档输出设置,控制精细打印
具体使用时:
String text =Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));