我有一个问题,我需要分别批量转换50,000个tiff到50,000个txt文件。我知道abbyy finereader和其他一些软件可能能够做到这一点,但一个免费的解决方案将是最好的。我也一直在研究tesseract。有没有人知道有任何脚本或程序使用tesseract自动执行此操作,并获得高质量的输出?
提前感谢
发布于 2012-03-20 22:40:29
对于使用Tesseract的免费解决方案,这里有一个简单的命令行批处理文件。根据需要更改变量内容和/或创建文件夹:
:Start
@Echo off
Set _SourcePath=C:\tifs\*.tif
Set _OutputPath=C:\txts\
Set _Tesseract="C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"
:Convert
For %%A in (%_SourcePath%) Do Echo Converting %%A...&%_Tesseract% %%A %_OutputPath%%%~nA
:End
Set "_SourcePath="
Set "_OutputPath="
Set "_Tesseract="发布于 2012-03-20 19:55:13
在我看来,我认为Tesseract将给你最好的结果,无论你是否正在寻找免费的解决方案。
如果您弄清楚如何转换一个文件,然后回发您使用的命令,那么将一个批处理脚本组合在一起来处理多个文件将很容易。
发布于 2012-03-22 09:50:10
看看VietOCR,这是一个Tesseract的Java/.NET前端;它的功能似乎满足了您的需要。
https://stackoverflow.com/questions/9785577
复制相似问题