我有一个html片段,如下所示:
<span class=#article-title#>About《About<SomeChineseChars》Blabla</span>
很抱歉,这里我使用的是拉丁文字符,因为编辑器不允许输入中文字符
当我尝试使用以下命令从该元素提取文本时
doc.select(".article-title").text();
我将最终得到以下结果:
About《About》Blabla
在调试程序之后,发现
<SomeChineseChars>
被视为HTML标记,JSoup会自动关闭该标记,如下所示
<SomeChineseChars></SomeChineseChars>
那么,如果有任何方法可以避免这种情况发生,或者如果这是一个BUG?
-=更新=-
生成dom并检查解析后的html后,输出为
I cannot post img, so plz click me to view it
谢谢你,本
发布于 2018-06-27 13:21:14
Document doc = Jsoup.connect("http://gk.tj.gov.cn/gkml/00012525X/200804/t20080425_49468.shtml")
.timeout(180 * 1000).get();
String html = doc.outerHtml().replaceAll("<天津市企业实行商务卡结算财务管理暂行办法>", "<天津市企业实行商务卡结算财务管理暂行办法>");;
doc = Jsoup.parse(html);
System.out.println(doc.select("#span_docTitle").text());
输出:
转发《关于印发 <天津市企业实行商务卡结算财务管理暂行办法> 的通知》的通知
https://stackoverflow.com/questions/51015884
复制相似问题