java pdf转ocr识别 - 腾讯云开发者社区

文章/答案/技术大牛

发布

4回答

一种基于OCR的PDF文本提取方法

、、

是否有人尝试过使用OCR库和Java从PDF中提取文本？你认为什么是最可靠的文本提取库？我见过的大多数方法(tesseract、GOCR)都是C库，需要编写一些JNI代码。

浏览 2提问于2009-04-22得票数 6

4回答

运行反引号/exec()时的PHP路径问题

、、

我试图从命令行运行一个java jar文件，在执行过程中它会给出一个路径。在这条路径上，他们是空格，这是导致问题的原因。即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR</em

浏览 1提问于2010-04-15得票数 0

1回答

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

如何从PDF中提取音乐符号？

、、、

我试图用另一种内置字体渲染PDF格式的音乐符号，但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_pdf.txt Betlem.pdf iconv.exe -f MAC

浏览 5提问于2019-07-22得票数 0

回答已采纳

3回答

OCR图形纸

我想把一个扫描过的图形纸笔记本(有手写)的pdf格式转换成一个文本文件。谢谢

浏览 6提问于2009-06-20得票数 1

1回答

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

、、、

我想使用Google 将不可搜索的PDF转换成可搜索的PDF，其中的文本是覆盖在PDF上的。 PDF位于我的谷歌驱动器，我不想上传文件到另一个网站或下载的文件，以进行转换。我没有找到任何显示文本可以被覆盖的资源，类似于Acrobat如何进行OCR转换。那么，是否有可能使用气体进行覆盖呢？我只看到人们转换成文本或文档文件。

浏览 1提问于2019-07-09得票数 1

回答已采纳

1回答

不安装Tesseract的Apache Tika OCR

、、、

我正在使用将PDF文件解析为文本。一些PDF文件可以包含扫描文档。Apache使用Tesseract将文本识别为图像。(AbstractPDF2XHTML.java:428) at org.apache.pdfbox.text.

浏览 5提问于2017-09-16得票数 6

2回答

Tesseract OCR混淆了0到8的斜线

、、

我曾在终端字体上训练过tesseract，但无论如何，我都无法让它识别出0。我正在使用jTessEditor创建培训tif和框。即使在验证时，它也会将所有的0读为8s。我遗漏了什么吗？

浏览 8提问于2018-10-31得票数 22

2回答

哪种软件可用于PDF扫描，可以提取信息并发送到发票程序？

、、、、

我在一家公司当实习生，他们需要精确扫描PDF格式的发票。该程序，即java库，需要能够提取发票的某些部分，这样用户就不必手动重新键入信息。

浏览 0提问于2019-09-12得票数 0

4回答

哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的文本pdf？

、、、、

我需要将扫描文档转换为mac上可搜索的文本PDF。它不需要免费，只需要比Acrobat更低的成本。

浏览 0提问于2015-03-02得票数 2

回答已采纳

2回答

在WinForm中寻找OCR库

、、

是否有任何免费/付费的OCR库能够捕获PDF格式的发票数据？需要有一个低的错误率。我们需要对这些数据进行进一步的处理。

浏览 0提问于2019-06-10得票数 1

1回答

我想从OCR数据中提取表信息。

、、、

我想从OCR数据中提取表格信息，我有原始文本和它的文本。我试过pytesseract，但找不到实际的实现。我试过这个：这种方法对我一点用也没有。我希望从OCR数据中获得此表的表格结构，以供进一步处理。

浏览 3提问于2019-01-20得票数 0

1回答

带有Aspris库的java - OCR

、、、

这是我使用Aspris库编写的代码，但"recognize“方法有问题：Ocr ocr = new Ocr();String s = ocr.recognize(theImage, Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_PLAINTEXT); <

浏览 3提问于2015-08-14得票数 0

1回答

如何判断pdf文件中隐藏的文本层是否来自OCR？

我见过一些pdf文件后，OCR有非常准确的文本(无论是在识别率，在文本对齐图像)。如果pdf文件中隐藏的文本层是否来自OCR，那么Unix/Linux工具会帮助我知道什么呢？

浏览 0提问于2014-12-07得票数 2

1回答

如何快速从图像中扫描可搜索的pdf？

、、、、

我想扫描文件与tesseract框架中的迅速和生成pdf文件，可以搜索。实际上，我使用此代码将图像转换为文本，但我希望生成主格式的图片，但格式将随着转换为文本而改变，并生成pdf文件。

浏览 2提问于2020-10-13得票数 0

回答已采纳

4回答

如何在java* / jsp或javascript中读取扫描的pdf文件的内容*

、、、

如何在java/jsp或javascript中读取扫描的pdf文件的内容，您能告诉我如何通过开发代码来实现这一点吗？预先感谢您的回复

浏览 2提问于2011-01-11得票数 0

1回答

保存并重新加载Abbyy的光学字符识别结果

、、、

假设我已经在Abbyy FindeReader中对多个PDF进行了光学字符识别。是否可以稍后在Abbyy FineReader中重新加载光学字符识别结果，以便纠正光学字符识别错误？我的想法是，我希望将执行OCR和(稍后)更正OCR结果分开

浏览 36提问于2020-10-09得票数 0

回答已采纳

2回答

黑名单字符不会被Tesseract OCR忽略

、、

我使用Tessearct来识别图像的字符。但我希望OCR忽略数字字符。_tesseract->SetVariable("tessedit_char_blacklist", "0123456789");如上文所示，OCR将12转换为fl，这是我不想要的。我希望12被

浏览 2提问于2013-03-04得票数 3

回答已采纳

2回答

在PDF上使用Asprise和Java的OCR

、

在这里，我是新手，我在编译代码时遇到了这个错误： PDFReader reader = new PDFReader(new File("C)at com.asprise.util.pdf.as.b(Unknown Source)at

浏览 1提问于2014-02-24得票数 0

1回答

检查是否已从Word/Google Docs导出PDF

、、、

我正在做一些OCRing PDF的工作，我很好奇是否有一种方法可以检查一个PDF是否已经从Word (或Google Docs)导出。我可以检查PDF是否已经用Xpdf的pdffonts进行了OCR。我知道Word和Google Docs会自动OCR导出的PDF，所以如果我发现PDF没有OCR，我就知道它没有导出。但是，如果它已经光学字符识别，有没有办法检查的PDF是否从Word/Google Docs导出

浏览 2提问于2013-06-14得票数 0

点击加载更多

一种基于OCR的PDF文本提取方法

运行反引号/exec()时的PHP路径问题

如何使用doc取器在PDF文件中搜索文本？

如何从PDF中提取音乐符号？

OCR图形纸

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

不安装Tesseract的Apache Tika OCR

Tesseract OCR混淆了0到8的斜线

哪种软件可用于PDF扫描，可以提取信息并发送到发票程序？

哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的文本pdf？

在WinForm中寻找OCR库

我想从OCR数据中提取表信息。

带有Aspris库的java - OCR

如何判断pdf文件中隐藏的文本层是否来自OCR？

如何快速从图像中扫描可搜索的pdf？

如何在java* / jsp或javascript中读取扫描的pdf文件的内容*

保存并重新加载Abbyy的光学字符识别结果

黑名单字符不会被Tesseract OCR忽略

在PDF上使用Asprise和Java的OCR

检查是否已从Word/Google Docs导出PDF

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐