你能推荐一个开源的Java库(最好是ASL/BSD/LGPL许可证),它可以将HTML转换为纯文本-清理所有标签,转换实体(&,*,等等)以及正确的句柄和表格。
更多信息
我有一个字符串形式的HTML,没有必要从web上获取它。另外,我正在寻找的是这样的方法:
String convertHtmlToPlainText(String html)
发布于 2009-10-05 12:14:16
试试Jericho。
TextExtractor类听起来可以做您想要做的事情。对不起,我不能发布第二个链接,因为我是一个新用户,但是向下滚动一下主页,就会有一个链接。
发布于 2009-10-05 07:37:12
HtmlUnit,它甚至显示了处理JavaScript / Ajax之后的页面。
发布于 2016-04-03 15:21:43
bliki引擎可以在两个步骤中做到这一点。请参阅info.bliki.wiki / Home
它将有7-8行代码,如下所示:
// html to wiki
import info.bliki.html.HTML2WikiConverter;
import info.bliki.html.wikipedia.ToWikipedia;
// wiki to plain text
import info.bliki.wiki.filter.PlainTextConverter;
import info.bliki.wiki.model.WikiModel;
...
String sbodyhtml = readFile( infilepath ); //get content as string
HTML2WikiConverter conv = new HTML2WikiConverter();
conv.setInputHTML( sbodyhtml );
String resultwiki = conv.toWiki(new ToWikipedia());
WikiModel wikiModel = new WikiModel("${image}", "${title}");
String plainStr = wikiModel.render(new PlainTextConverter(false), resultwiki );
System.out.println( plainStr );
Jsoup可以更简单地做到这一点:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
Document doc = Jsoup.parse(sbodyhtml);
String plainStr = doc.body().text();
但是在结果中,你失去了所有的段落格式--没有任何换行符。
https://stackoverflow.com/questions/1518675
复制相似问题