我想把一个扫描过的图形纸笔记本(有手写)的pdf格式转换成一个文本文件。
我该怎么做呢?
谢谢
发布于 2009-06-20 16:03:38
查看一个OCR库,比如OCRopus。我不认为它需要PDF,所以你可能必须先把它转换成TIFF或JPEG格式。
发布于 2009-06-20 18:52:38
有一些OCR库可以转换类型(OCRopus、tesseract等)。
还有一些基于Java的手写库。我不确定OCRopus是否有这种能力,我正在研究的一个手写识别库是:
Online Video
Java Neural Networks
可以想象,如果需要的话,你可以把pdf转换成tiff (根据软件),它会给你一些东西。
祝好运!
发布于 2009-06-20 16:20:07
如果它是PDF文件的笔记本,你可以通过电子邮件将其发送到gmail帐户,然后gmail允许你在浏览器中以HTML文件的形式“查看”PDF。页面仍然是图像。
如果您希望从中取出文本,OCR可能会起作用,但它也可能无法从中取出文本。
https://stackoverflow.com/questions/1021900
复制相似问题