我最近买了一台爱普生扫描仪,这样我就可以开始数字化多年来积累的大量文件。我已经学会了如何将文档扫描到PDF文档中,但是,我想确保我的PDF文档有可搜索的文本--我认为技术术语是OCR,但我完全搞不懂。
我可以用我的扫描仪把文件扫描到PDF中。但是,如果我正确理解,我无法使他们OCR搜索,除非我使Acrobat和/或ABBYY精细阅读器的工作流程的一部分。(顺便说一下,我用的是一台运行小牛的Mac电脑。)
我想我需要问的第一件事是:我需要什么软件来创建一个OCR可搜索的PDF?就像我说的,我已经安装了爱普生扫描仪软件,但看起来我也需要Acrobat和/或ABBYY精细阅读器。
我想我应该问的第二个问题是,我如何知道PDF是否有可搜索的文本?我能否简单地在PDF页面上搜索一个单词或短语,其中包含一个标准程序,如Dreamweaver或Apple的Spotlight?谢谢。
发布于 2014-05-12 14:03:16
扫描仪生成图像并将其保存为图像格式或PDF格式。然后在OCR软件中打开结果,如ABBYY精细阅读器。您也可以在Acrobat中打开它,因为Acrobat本身就有内置的OCR组件。如果使用Acrobat,则有可搜索的文档,除非Acrobat无法找到任何可读的字符。其他OCR软件可以保存PDF或其他文件格式。
另一个答案提到了另一个产品,我不知道,但也许值得一看。
关于第二个问题:
a)有一个Acrobat JavaScript Doc方法getPageNumWords();如果该方法返回大于0的数字,则作为参数传递的页面具有可搜索的文本。您可以在Acrobat JavaScript文档中找到有关此方法的更多信息,Acrobat是Acrobat的一部分,可从Adobe下载。
( b)进行飞行前检查,以确定页面/文档是否有文本对象。如果是这样的话,它有可搜索的文本。您将需要Acrobat,但这一点。
发布于 2014-06-10 06:35:47
大多数解决方案是使用扫描仪生成一个图像文件(比如不可搜索的PDF),然后将你的身体从扫描仪移到计算机上,登录,运行一些难以处理的、价格昂贵的软件ABBSGDS之类的东西,点击大量的菜单按钮,响应大量的对话框,一边看OCR进度条一边转动拇指,然后查看可搜索的PDF。
或者,你可以得到一个佳能扫描仪(如DR-M 160),并使用他们的免费CaptureOnTouch软件。在这种情况下,您将文档放在扫描仪中,在扫描仪上选择一个数字,然后按下扫描。几秒钟后(即使是在一台缓慢的计算机上),一个完全可搜索的OCRd可搜索的PDF文件将出现在您所选择的目录中。你甚至不用碰你的电脑(当然,它必须是开着的)
我认为,在繁忙的办公环境中,其他任何东西都是毫无价值的,因为你每天都要扫描几十个多页的文档。我,例如,站在我的扫描器旁边,一份又一份地快速地放进文件。我从不去我的电脑,我所有的文件都是可搜索的PDF,就像我把它们放进去一样快。
如果有人知道那种工作流程的软件解决方案只适用于一般扫描仪,请告诉我。我只是犯了一个错误,那就是我买了一个词汇标记多功能,因为它是和ABBYYwhatever软件一起出现的,实际上,它是一个统一功能。
https://stackoverflow.com/questions/23602222
复制相似问题