我有一个html片段,如下所示:
<span class=#article-title#>About《About<SomeChineseChars》Blabla</span>
很抱歉,这里我使用的是拉丁文字符,因为编辑器不允许输入中文字符
当我尝试使用以下命令从该元素提取文本时
doc.select(".article-title").text();
我将最终得到以下结果:
About《About》Blabla
在调试程序之后,发现
<SomeChineseChars>
被视为HTML标记,JSoup会自动关闭该标记,如下所示
<SomeChineseChars></SomeChineseChars>
那么,如果有任何方法可以避免这种情况发生,或者如果这是一个BUG?
-=更新=-
生成dom并检查解析后的html后,输出为
I cannot post img, so plz click me to view it
谢谢你,本
https://stackoverflow.com/questions/51015884
复制相似问题