使用R中的新Tesseract OCR引擎将许多.pdf文件转换为.txt文件

r、ocr、tesseract、file-conversion

我的主管希望我将.pdf文件转换为.txt文件，以便通过关键字提取算法进行处理。.pdf文件是扫描过的法庭文件。她还希望将每个.txt文件保存为"docketnumber_date_documentdescription.txt"，例如"d2_5_23_2020_complaint.txt<

浏览 30提问于2021-09-24得票数 0

回答已采纳

2回答

php exec()和tesseract说“无法打开输入文件”

php、exec、tesseract

我使用Ghostscript将PDF文件中的图像剥离到jpg中，并运行Tesseract保存txt内容，如下所示：位于c:\engine\gs\Tesseract中的Ghostscript位于c:\engine\tesseract\web中pdf/jpg/txt =/tmp&#x

浏览 4提问于2012-04-17得票数 1

回答已采纳

9回答

什么是最好的，最简单的OCR解决方案？

software-recommendation、scanning、ocr

我想扫描大量的文件，我已经躺在附近，尽量少麻烦。我想通过简单的扫描将它们转换成图像，然后使用OCR将它们转换为文本。有一个好的OCR应用程序的图形用户界面，将给我一个好的结果按下一个按钮？

浏览 0提问于2010-12-05得票数 97

回答已采纳

3回答

为什么pdf2image给我一个空白的图像文件？

python、pdf、ocr、pdftoppm、pdf2image

我试图使用Tesseract OCR在多个大pdf文件上执行OCR (~400-600页)。我不一定要从所有页面中提取文本，但我只想要几页(页码已知)。PDF文件似乎已经在上面执行了某种OCR，但这不是一个好工作。pytesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-<

浏览 10提问于2021-06-06得票数 2

3回答

Tesseract批处理将图像转换为可搜索的PDF和多个相应的文本文件

linux、python-3.x、ocr、tesseract

我使用tesseract批量将图像列表转换为可搜索的PDF以及包含OCRd文本的TXT文件。myconfig包含tesseract首选项以指定输出类型(tessedit_create_text 1和tessedit_create_pdf 1) 这给我留下了outfile.pdf和outfile.txt然而，我真正想要做的是在每个映像<em

浏览 1提问于2019-08-01得票数 0

回答已采纳

4回答

一种基于OCR的PDF文本提取方法

java、pdf、text-parsing

是否有人尝试过使用OCR库和Java从PDF中提取文本？你认为什么是最可靠的文本提取库？我见过的大多数方法(tesseract、GOCR)都是C库，需要编写一些JNI代码。我熟悉pdfbox，它现在是Apache 0.8.x版的孵化器项目，但是它的文本提取并不总是准确的。我正在寻找一种更可靠的替代方法。我还没有尝试过Asprise，在尝试的过程中，我想了解更多关于JavaPDF<e

浏览 2提问于2009-04-22得票数 6

1回答

将多个PDF文件转换为文本(R语言)

r、pdf、dplyr、tesseract

我正在使用R中的"tesseract“库将"PDF文件转换为文本”，如下所示：library(tesseract) text <- tesseract::

浏览 4提问于2021-07-31得票数 0

1回答

开放源码在线文档编辑器

document-management

有人能告诉我一些在线实现文档管理的开源项目吗？谢谢。

浏览 1提问于2013-07-25得票数 2

回答已采纳

3回答

如何使用任何Java库使现有的PDF文本可搜索？用OCR

java、ocr、pdfbox

如何使用任何java库生成可搜索的文本？开源或付费。如何使用PDFBox将OCR应用于pdf？如何使pdf文本可编程搜索使用pdfbox，我搜索了很多。没有找到任何解决办法。有人能粘贴OCR PDFBox的代码吗？

浏览 8提问于2014-04-04得票数 0

回答已采纳

1回答

如何使用jTessBoxEditor提高文本识别的准确性？

python、ocr、tesseract、python-tesseract、pdf-extraction

我一直在尝试从扫描的pdf文档中提取数据。我已经将pdf文件转换为jpeg文件(我在下面附上了图像链接)，裁剪具有不同字体的单词和数字，合并为tiff文件，并使用jTessBoxEditor训练字体生成新的语言，我使用该语言在Tesseract-OCR中提取文件中的数据。但我

浏览 21提问于2020-08-31得票数 1

1回答

在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题

java、scala、apache-tika、runtimeexception、pdfparser

我使用这两个依赖项：- tika核心2.6.0tika解析器标准包2.6.0 .Parsing在这些情况下很好地工作：- pdf文件和文本。pdf文件与图像。文本文件和其他扩展名。对于下面的用例- pdf文件和图像中的文本，pdf分析器运行时异常的解析失败。有人能在这里建议如何解决失败的案件吗？(PDFTextStripper.java:365) ~org.ap

浏览 19提问于2022-11-11得票数 0

10回答

光学字符识别软件推荐？

software-recommendation

我看到一些电子书/论文显然是从他们的纸质版本中扫描出来的，但电子图书/论文中的文本却能惊人地被复制出来。我想直接扫描的版本一定是由一些光学字符识别软件处理的。所以我想知道什么是推荐的光学字符识别软件？尤其是那些要么是Ubuntu的，要么是免费的？如果那些在Windows上要好得多，请告诉我。我特别感兴趣的那些OCR，可以接受一个扫描的pdf<e

浏览 0提问于2010-10-22得票数 15

回答已采纳

2回答

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

python、ocr、rgb、cmyk、wand

我对一些pdf文件有问题。我需要将它们转换为jpg图像，使它们可用于OCR，但当我转换其中的一些，魔杖转我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为pdf文件的文件中，其中空间颜色变成了CMYK。Tesseract OCR仅接受空间颜色

浏览 51提问于2019-04-22得票数 1

回答已采纳

1回答

通过SOLR对Tesseract的OCR支持

solr、ocr、tesseract、apache-tika

好日子，我正在尝试将SOLR配置为使用Tesseract OCR引擎从图像中提取文本，但还没有成功。SOLR从结构化文本文档(.xls、.pdf、doc等)中提取精细文本，但它不想调用Tesseract模块进行文本识别。我在用 /usr&#

浏览 6提问于2020-01-16得票数 0

2回答

GNU并行中的嵌套循环并行化

bash、parallel-processing、tesseract、gnu-parallel

我有一个小bash脚本OCR文件(稍加修改的脚本)。每个文件的基本流程是： FILES=/home/tgr/: *[0-9]\+$" | sed 's/.* &

浏览 0提问于2013-09-20得票数 9

回答已采纳

1回答

将扫描的pdf文件转换为文本可搜索的pdf文件

php、pdf、ocr

我想将扫描的pdf文件转换为可文本搜索的pdf文件。我想给出一个输入作为扫描的PDF，然后我的预期输出是可搜索的PDF。有几个工具，给我们的文本作为输出从扫描的pdf文件，但我想文本可搜索的pdf文件作为输出，而不仅仅是文本。我搜索了一下，找到了一个解决方案

浏览 25提问于2017-07-09得票数 1

1回答

使用openjpeg2运行tesseract* 4.1 -无法生成pdf输出*

pdf、output、tesseract

Can't open PDFWarning: Invalid resolution 0Estimating resolution as 275但是，它试图读取一个名为PDF的文件，但我不知道如何获得PDF输出

浏览 4提问于2019-12-17得票数 0

回答已采纳

2回答

‘`tesseract* cri`可以将结果放到STDOUT中吗？*

tesseract

使用tesseract-ocr #3.02.02。tesseract sourc.png result是否有将结果转储到stdout中的选项？

浏览 0提问于2014-06-22得票数 24

回答已采纳

2回答

在Heroku上与Django一起使用Tesseract

python、django、heroku、tesseract

我想添加OCR功能到我的Django应用程序上运行在Heroku上。我怀疑最简单的方法是使用。我注意到，对于Tesseract的API，有很多python包装器，但是在Heroku上安装和运行Tesseract的最佳方法是什么呢？可能是通过像这样的定制构建包吗？

浏览 10提问于2013-10-22得票数 1

回答已采纳

3回答

使用R在PDF中存储Tesseract输出

r、pdf、ocr、tesseract

我正在尝试使用R接口来测试tesseract来创建一个包含嵌入式文本的PDF文件。我已经看到了前面的问题，但是它是关于使用命令行接口进行tesseract的。这个问题是关于R界面的。我将tessedit_create_pdf选项设置为1，但没有得到新的pdf文件。我没有看到设置输出文件

浏览 9提问于2021-08-29得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

php exec()和tesseract说“无法打开输入文件”

什么是最好的，最简单的OCR解决方案？

为什么pdf2image给我一个空白的图像文件？

Tesseract批处理将图像转换为可搜索的PDF和多个相应的文本文件

一种基于OCR的PDF文本提取方法

将多个PDF文件转换为文本(R语言)

开放源码在线文档编辑器

如何使用任何Java库使现有的PDF文本可搜索？用OCR

如何使用jTessBoxEditor提高文本识别的准确性？

在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题

光学字符识别软件推荐？

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

通过SOLR对Tesseract的OCR支持

GNU并行中的嵌套循环并行化

将扫描的pdf文件转换为文本可搜索的pdf文件

使用openjpeg2运行tesseract* 4.1 -无法生成pdf输出*

‘`tesseract* cri`可以将结果放到STDOUT中吗？*

在Heroku上与Django一起使用Tesseract

使用R在PDF中存储Tesseract输出

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐