ocr将pdf转word - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

为什么我用魔杖从pdf中提取图像jpg，它会在文本上变成黑色背景？

、、、、

我对一些pdf文件有问题。我需要将它们转换为jpg图像，使它们可用于OCR，但当我转换其中的一些，魔杖转我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为pdf文件的文件中，其中空间颜色变成了CMYK。Tesseract OCR仅接受空间颜色RGB。我已经写了一个可以转换的python脚本，但我想解决这个问题。你能帮我一下吗？原页pdf ? 已将pdf转换为jpg

浏览 51提问于2019-04-22得票数 1

回答已采纳

3回答

将扫描的PDF转换为可搜索的PDF ( R)

、、、、

我正在尝试使用tesseract和pdftools包将一系列扫描的PDF转换成可搜索的PDF。我已经完成了两步。现在我需要写回一个可搜索的pdf。读取扫描PDF eg <- download.file("https://www.fujitsu.com/global/Images/sv600_c_automatic.pdf",

浏览 22提问于2021-09-01得票数 1

2回答

如何在R中逐行读取PDF？

、、

我使用pdftools包中的read_pdf()函数逐行读取PDF文件，但突然之间，它没有改变脚本、任何参数或行中的任何内容，而是开始读取整个页面，而不是逐行分隔元素。我怎样才能让它回到逐行分离？

浏览 8提问于2022-09-30得票数 0

回答已采纳

3回答

使用R在PDF中存储Tesseract输出

、、、

我正在尝试使用R接口来测试tesseract来创建一个包含嵌入式文本的PDF文件。我已经看到了前面的问题，但是它是关于使用命令行接口进行tesseract的。这个问题是关于R界面的。我将tessedit_create_pdf选项设置为1，但没有得到新的pdf文件。我没有看到设置输出文件的选项。如何使tesseract创建一个带有嵌入式文本的pdf？下面的代码在内存中生成很好的文本，但是没有PDF文件。tesseract(language = "eng", o

浏览 9提问于2021-08-29得票数 1

1回答

检查是否已从Word/Google Docs导出PDF

、、、

我正在做一些OCRing PDF的工作，我很好奇是否有一种方法可以检查一个PDF是否已经从Word (或Google Docs)导出。我可以检查PDF是否已经用Xpdf的pdffonts进行了OCR。我知道Word和Google Docs会自动OCR导出的PDF，所以如果我发现PDF没有OCR，我就知道它没有导出。但是，如果它已经光学字符识别，有没有办法检查的PDF是否从Word&

浏览 2提问于2013-06-14得票数 0

1回答

使用R突出显示PDF文件中的文本

、

我想用R高亮显示PDF文档中的一些文本，我想搜索PDF文档中的一些文本，如果找到的话突出显示文本。我在寻找能做到这一点的包裹。有没有一种方法，我们可以突出显示一个PDF文件使用R？

浏览 2提问于2017-03-08得票数 2

2回答

PDF和文本层

、、

根据这个站点的，当添加一个文本层时，PDF是可搜索的。如果扫描仪在图像上执行OCR，它是否将文本存储在“文本层”中？或者是&qu

浏览 2提问于2012-07-10得票数 15

回答已采纳

4回答

如何在c#中将PDF文件转换为WORD文件

、、、

有没有人知道一个.Net组件，可以通过编程将PDF转换为Word或RTF？我不想使用OCR和Adobe相关解决方案。

浏览 1提问于2011-04-20得票数 7

3回答

如何在没有microsoft.office.interop的情况下将PDF转换为文档？

、、、、

我需要转换成.doc文件使用C#的PDF文件。虽然这台计算机没有安装Office，但它没有文件系统。有没有什么好办法让我这么做呢？我做了一些研究，大多数人都在使用互操作服务。

浏览 2提问于2011-04-23得票数 0

回答已采纳

2回答

如何从pdf图像中查找文本？

、、

我正在开发一个C#应用程序，我在其中将PDF文档转换为图像，然后在自定义查看器中呈现该图像。当我试图在生成的图像中搜索特定的单词时，我遇到了一些困难，我想知道最好的方法是什么。

浏览 2提问于2012-09-25得票数 4

回答已采纳

1回答

R中写入数据帧的错误

、、、、

我试图从我从pdf文件中提取的文本中搜索一个单词，这是OCR的格式。这个pdf文件有多个页面，所以对于每个页面，我都在搜索这个单词，如果找到了这个单词，然后编写文件名，或者不存在)，找到它的 page ，以及它找到的 word 。","west","para")tc=c()x=list()Status="Present"

浏览 4提问于2017-09-25得票数 0

回答已采纳

1回答

在PDF中用python执行OCR有可能吗？

、、、

在PDF中用python执行OCR有可能吗？我正在尝试构建一个程序，从每一个PDF表格中提取一些信息，比如Autodesk BIM360所做的事情。

浏览 6提问于2022-05-26得票数 -2

2回答

如何将PDF转换为JSON/EXCEL/WORD文件？

、、、、

我需要从pdf文件中获取数据及其标头，以便进一步与DB数据进行比较我试着使用pdfbox，google vision ocr，itext，但是所有的库都没有结构和头文件。示例: Date\nNumber\nStatus\n12\12\2020\n442334\delivered 我会尝试将pdf转换为excel/word并从中获取数据，但为了实现这一点，我需要读取pdf并将数据写入excel/word。

浏览 54提问于2020-04-17得票数 0

回答已采纳

2回答

Tessnet2 OCR仅返回数字

、、、

valoare="";tessnet2.Tesseract ocr= new tessnet2.Tesseract(); ocr.Init(@"F:\Manipulare pdf\bin(1)\Release32\tessdata", "eng", false);var rect = new System.

浏览 3提问于2013-04-05得票数 1

1回答