首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >检测编码转换问题

检测编码转换问题
EN

Stack Overflow用户
提问于 2009-01-07 03:21:29
回答 3查看 1.1K关注 0票数 0

我公司网站上的大多数内容最初都是Word文档(Windows-1252编码),最后被复制粘贴到我们的UTF-8编码的内容管理系统中。转换通常会阻塞几个字符(特殊的换行符、智能引号、科学符号),这些字符必须手动清除,但当然也有一些字符总是会漏掉。

你认为检测这些最好的方法是什么?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2009-01-29 22:53:45

您到底是如何进行转换的?

整个从单词复制的问题是我经常遇到的问题,但它真的应该很容易解决。

您提到的那些字符都在the Windows-1252 code page differs from the ISO-8859-1 code page0x80 - 0x9F范围内。ISO-8859-1中未定义该范围。

您必须执行从ISO-8859-1 (或ISO-8859-15)而不是Windows-1252的转换,从而导致该范围内的字符阻塞。

您应该调整转换的源编码,或者,如果不可能这样做(我不熟悉C#,但我对此表示怀疑),可以使用代码页图表来修复从主转换中分离出来的32个问题字符。

票数 2
EN

Stack Overflow用户

发布于 2009-01-07 03:55:20

您能否将文本保存为.rtf,然后使用其他程序解析它?

您能使用Word的VBA将文本保存为正常的内容吗?

票数 1
EN

Stack Overflow用户

发布于 2009-01-07 04:07:36

如前所述,最好将Word内容导出为可解析的格式( RTF或XML都可以)。

使用复制和粘贴将材料添加到CMS中可能有特定的原因,但通过复制和粘贴,除非您创建了一个监视剪贴板的工具,否则您可能总是以某种视觉检查和修复结束。

从Word (最新版本)复制和粘贴时,剪贴板有几种不同的格式可供使用,其中一种格式是基于XML的。可以创建一些东西来清理剪贴板上的单词XML,并将文本版本(您可能会粘贴到CMS中)“设置”为清理后的格式。

您可以使用office和标准C#剪贴板功能附带的Word.interop来创建它。该工具可以在Word的顶部(在后台)工作,同时向CMS添加内容。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/419082

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档