我公司网站上的大多数内容最初都是Word文档(Windows-1252编码),最后被复制粘贴到我们的UTF-8编码的内容管理系统中。转换通常会阻塞几个字符(特殊的换行符、智能引号、科学符号),这些字符必须手动清除,但当然也有一些字符总是会漏掉。
你认为检测这些最好的方法是什么?
发布于 2009-01-29 22:53:45
您到底是如何进行转换的?
整个从单词复制的问题是我经常遇到的问题,但它真的应该很容易解决。
您提到的那些字符都在the Windows-1252 code page differs from the ISO-8859-1 code page的0x80
- 0x9F
范围内。ISO-8859-1中未定义该范围。
您必须执行从ISO-8859-1 (或ISO-8859-15)而不是Windows-1252的转换,从而导致该范围内的字符阻塞。
您应该调整转换的源编码,或者,如果不可能这样做(我不熟悉C#,但我对此表示怀疑),可以使用代码页图表来修复从主转换中分离出来的32个问题字符。
发布于 2009-01-07 03:55:20
您能否将文本保存为.rtf,然后使用其他程序解析它?
您能使用Word的VBA将文本保存为正常的内容吗?
发布于 2009-01-07 04:07:36
如前所述,最好将Word内容导出为可解析的格式( RTF或XML都可以)。
使用复制和粘贴将材料添加到CMS中可能有特定的原因,但通过复制和粘贴,除非您创建了一个监视剪贴板的工具,否则您可能总是以某种视觉检查和修复结束。
从Word (最新版本)复制和粘贴时,剪贴板有几种不同的格式可供使用,其中一种格式是基于XML的。可以创建一些东西来清理剪贴板上的单词XML,并将文本版本(您可能会粘贴到CMS中)“设置”为清理后的格式。
您可以使用office和标准C#剪贴板功能附带的Word.interop来创建它。该工具可以在Word的顶部(在后台)工作,同时向CMS添加内容。
https://stackoverflow.com/questions/419082
复制相似问题