我试图将网页上所有可读的单词保存到一个文本文档中,同时忽略html标记。使用JSoup解析网页上的所有单词,我对如何从代码中分离真实单词的唯一猜测是通过元素。是否有可能将jsoup文档的多个元素转换为文本文件?doc.select("a[href]");
Elements smallText = doc.select("a"
在大多数情况下,使用jsoup解析XML都没有问题。但是,如果XML文档中有<link>标记,jsoup会将<link>some text here</link>更改为<link />some text here。这使得无法使用CSS选择器提取<link>标记内的文本。
那么如何防止jsoup“清理”<link>标签呢?