我正在寻找一种方法,以清洁HTML文本,可能会有一些丢失或损坏的标签在他们。这些程序通常是由非程序员编写的,HTML可能会出现一些问题。("JSOUP: "+ Jsoup.clean(test, StringUtils.EMPTY, Whitelist.relaxed()));BEFORE: Here is a <i>fake<br><b><i>- Publisher</i
在每个文件夹中,有一个超文本标记语言文件和一个.txt文件,其中包含超文本标记语言文件中的文本,去掉所有超文本标记语言标记。从这两个文件中,我想创建一个新文件,它是一个HTML文件,在"This is some text“周围画了一个方框,如下所示:这里最明显的问题是,打印精美的文本文件不包含任何标记,因此很难在HTML文档中找到它。-Grab HTML内容,去掉所有的