首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用Java或.NET库对来自ColdFusion的PDF进行光学字符识别?

使用Java或.NET库对来自ColdFusion的PDF进行光学字符识别?
EN

Stack Overflow用户
提问于 2009-01-30 19:29:17
回答 4查看 2.9K关注 0票数 1

我希望采取一个PDF,并从中提取任何文本。然后,我想使用ColdFusion的available Verity搜索来搜索内容。

有没有已经做得很好的库了?我在作用域中包含了Java或.NET (Java首选)库,因为它们可以从CF调用。

任何见解或经验都将非常感谢……谢谢!

编辑:根据我对CF的了解,当文本嵌入到PDF中时,索引PDF文件就能正常工作。我要处理的PDF文件会将文本作为图像进行扫描。

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2009-01-30 19:45:28

如果你有能力运行自己的软件(即专用/VPS),那么你可以研究使用Tesseract OCRcfexecute将PDF转换为文本?

票数 1
EN

Stack Overflow用户

发布于 2009-01-30 19:31:27

默认情况下,Verity应该能够索引PDF文件:

http://livedocs.adobe.com/coldfusion/6/Developing_ColdFusion_MX_Applications_with_CFML/indexSearch2.htm#1142322

票数 1
EN

Stack Overflow用户

发布于 2009-01-30 19:38:38

雷·卡姆登在working with PDFs in ColdFusion 8上有一个由八部分组成的系列。

本系列的Part 7介绍了如何使用DDX从PDF中获取文本。

虽然不确定这是否适用于您的OCR需求,但可能仍然值得一看。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/496875

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档