首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >jsoup将令牌错误地作为HTML标记

jsoup将令牌错误地作为HTML标记
EN

Stack Overflow用户
提问于 2018-06-25 11:20:17
回答 1查看 124关注 0票数 0

我有一个html片段,如下所示:

<span class=#article-title#>About《About<SomeChineseChars》Blabla</span>

很抱歉,这里我使用的是拉丁文字符,因为编辑器不允许输入中文字符

当我尝试使用以下命令从该元素提取文本时

doc.select(".article-title").text();

我将最终得到以下结果:

About《About》Blabla 

在调试程序之后,发现

<SomeChineseChars> 

被视为HTML标记,JSoup会自动关闭该标记,如下所示

<SomeChineseChars></SomeChineseChars> 

那么,如果有任何方法可以避免这种情况发生,或者如果这是一个BUG?

-=更新=-

生成dom并检查解析后的html后,输出为

I cannot post img, so plz click me to view it

谢谢你,本

EN

回答 1

Stack Overflow用户

发布于 2018-06-27 13:21:14

    Document doc = Jsoup.connect("http://gk.tj.gov.cn/gkml/00012525X/200804/t20080425_49468.shtml")
            .timeout(180 * 1000).get();
    String html = doc.outerHtml().replaceAll("<天津市企业实行商务卡结算财务管理暂行办法>", "&lt;天津市企业实行商务卡结算财务管理暂行办法&gt;");;
    doc = Jsoup.parse(html);
    System.out.println(doc.select("#span_docTitle").text());

输出:

转发《关于印发 <天津市企业实行商务卡结算财务管理暂行办法> 的通知》的通知
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51015884

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档