首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >ASP.NET核HtmlAgilityPack编码错误

ASP.NET核HtmlAgilityPack编码错误
EN

Stack Overflow用户
提问于 2018-12-08 13:38:40
回答 2查看 498关注 0票数 0

有一些关于编码问题和HtmlAgilityPack的帖子,但是这个问题没有得到解决:

因为我试图解析的网站包含像ä这样的Unicode符号,所以ü试图将编码设置为Unicode:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
public class WebpageDeserializer
{
    public WebpageDeserializer() {}

    /*
     * Example address: https://www.dslr-forum.de/showthread.php?t=1930368
    */
    public static void Deserialize(string address)
    {
        var web = new HtmlWeb();
        web.OverrideEncoding = Encoding.Unicode;
        var htmlDoc = web.Load(address);
        //further decoding fails because unicode decoded characters are not proper html (looks more like chinese)
    }
}

但现在

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
htmlDoc.DocumentNode.InnerHtml

看起来是这样的:

ℼ佄呃偙⁅瑨汭倠䉕䥌⁃ⴢ⼯㍗⽃䐯䑔堠呈䱍ㄠ〮吠慲獮瑩潩慮⽬䔯≎...

如果我尝试使用UTF-8iso-8859-1符号将转换为 (以及äöü)。我怎么才能解决这个问题?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-12-08 14:37:12

您的站点配置错误,真正的编码是cp1252

下面的代码应该有效:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
var client = new HttpClient();
var buf = await client.GetByteArrayAsync("https://www.dslr-forum.de/showthread.php?t=1930368");
var html = Encoding.GetEncoding(1252).GetString(buf);
var doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
票数 1
EN

Stack Overflow用户

发布于 2018-12-08 14:37:34

相反,Encoding.Unicode使用:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
web.OverrideEncoding = Encoding.GetEncoding("iso-8859-1");

(用您的网站和德语测试)

要获得正确的编码,请检查目标网站的标题。它包含了正确的提示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53687220

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文