我正在试着写一个只能被人读懂的文档。无法复制文档内容。为此,我将其页面转换为图片,并将其添加回PDF文件。主要的问题是,任何OCR程序都可以恢复整个书面文本,特别是页面将是清晰的(而不是扫描的书),这将提高OCR的准确性。
那么,有没有OCR无法识别的字体呢?否则,有没有一种技术可以让我的文档只被人类阅读,而不被OCR识别?(例如,添加特定的背景,等等)
提前谢谢你。
发布于 2012-11-13 19:06:12
一般情况下,OCR不是通过识别文本的“字体”来识别文本,而是通过分析字符的特征和形状来识别文本,这意味着它会在图形开放区域、不同文本的形状以及正在扫描的文件中的字母中寻找相似性以进行转换。(这就是为什么它还可以识别不使用任何字体的手写文档的原因)。
这个通过文本特征识别文本的过程称为Intelligent Character Recognition
我不认为你的问题可以有一个确定的答案,那就是使用哪种字体使其无法被光学字符识别识别,而只是让普通光学字符识别变得更加困难,尝试使用一些不遵循常规字符特征的calligraphic fonts like this one,因此计算机软件很难阅读(这也是验证码背后的主要思想)。
但是,这可能会给一般的OCR带来困难,但它仍然不是100%成功的解决方案,而且它还会使任何人都很难阅读。
发布于 2012-11-13 18:58:59
看一看CAPTCHA技术,它与你的目标相同,所以应该已经找到了解决方案/陷阱来解决你的困难。
发布于 2012-11-13 18:58:22
对于你想要的东西,没有真正的解决方案。这是一个典型的试图在发布的同时保持克制的例子。这没有什么意义。
有些特殊字体不能被现成的OCR解决方案识别。用户需要额外的许可证才能获得识别这些字体的插件。一个例子就是古老的德语"Fraktur“字体。但它对人类来说也是相当难读的:-)
https://stackoverflow.com/questions/13359491
复制相似问题