我希望采取一个PDF,并从中提取任何文本。然后,我想使用ColdFusion的available Verity搜索来搜索内容。
有没有已经做得很好的库了?我在作用域中包含了Java或.NET (Java首选)库,因为它们可以从CF调用。
任何见解或经验都将非常感谢……谢谢!
编辑:根据我对CF的了解,当文本嵌入到PDF中时,索引PDF文件就能正常工作。我要处理的PDF文件会将文本作为图像进行扫描。
发布于 2009-01-30 19:45:28
如果你有能力运行自己的软件(即专用/VPS),那么你可以研究使用Tesseract OCR和cfexecute
将PDF转换为文本?
发布于 2009-01-30 19:31:27
默认情况下,Verity应该能够索引PDF文件:
http://livedocs.adobe.com/coldfusion/6/Developing_ColdFusion_MX_Applications_with_CFML/indexSearch2.htm#1142322
发布于 2009-01-30 19:38:38
雷·卡姆登在working with PDFs in ColdFusion 8上有一个由八部分组成的系列。
本系列的Part 7介绍了如何使用DDX从PDF中获取文本。
虽然不确定这是否适用于您的OCR需求,但可能仍然值得一看。
https://stackoverflow.com/questions/496875
复制相似问题