文章/答案/技术大牛

发布

问检测编码转换问题
EN

Stack Overflow用户

提问于 2009-01-07 03:21:29

回答 3查看 1.1K关注 0票数 0

我公司网站上的大多数内容最初都是Word文档(Windows-1252编码)，最后被复制粘贴到我们的UTF-8编码的内容管理系统中。转换通常会阻塞几个字符(特殊的换行符、智能引号、科学符号)，这些字符必须手动清除，但当然也有一些字符总是会漏掉。

你认为检测这些最好的方法是什么？

encoding

utf-8

windows-1252

回答 3

Stack Overflow用户

回答已采纳

发布于 2009-01-29 22:53:45

您到底是如何进行转换的？

整个从单词复制的问题是我经常遇到的问题，但它真的应该很容易解决。

您提到的那些字符都在the Windows-1252 code page differs from the ISO-8859-1 code page的0x80 - 0x9F范围内。ISO-8859-1中未定义该范围。

您必须执行从ISO-8859-1 (或ISO-8859-15)而不是Windows-1252的转换，从而导致该范围内的字符阻塞。

您应该调整转换的源编码，或者，如果不可能这样做(我不熟悉C#，但我对此表示怀疑)，可以使用代码页图表来修复从主转换中分离出来的32个问题字符。

票数 2

Stack Overflow用户

发布于 2009-01-07 03:55:20

您能否将文本保存为.rtf，然后使用其他程序解析它？

您能使用Word的VBA将文本保存为正常的内容吗？

票数 1

Stack Overflow用户

发布于 2009-01-07 04:07:36

如前所述，最好将Word内容导出为可解析的格式( RTF或XML都可以)。

使用复制和粘贴将材料添加到CMS中可能有特定的原因，但通过复制和粘贴，除非您创建了一个监视剪贴板的工具，否则您可能总是以某种视觉检查和修复结束。

从Word (最新版本)复制和粘贴时，剪贴板有几种不同的格式可供使用，其中一种格式是基于XML的。可以创建一些东西来清理剪贴板上的单词XML，并将文本版本(您可能会粘贴到CMS中)“设置”为清理后的格式。

您可以使用office和标准C#剪贴板功能附带的Word.interop来创建它。该工具可以在Word的顶部(在后台)工作，同时向CMS添加内容。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/419082

复制

相似问题

问检测编码转换问题
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问检测编码转换问题EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问检测编码转换问题
EN