无法识别pdf的文字 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

Acrobat XI Pro喜欢pdf阅读器

、、

我如何安装一个PDF阅读器，像“杂技XI专业”，让我突出文本，有文字识别，让我组合和转换PDF格式和其他格式？

浏览 0提问于2015-02-02得票数 0

1回答

使用Java和Itext编辑PDF文本

、

有办法编辑PDF文档文本吗？比如找到和替换特定的文本？我能够编辑特定坐标(x，y)的pdf，但无法识别和替换。我看到的所有库都是从零开始创建的PDF和小的编辑功能。不管怎样，我可以用itext编辑上面的解释吗？请advise...thank你！ **例子:一份pdf

浏览 5提问于2014-07-10得票数 2

1回答

如何使用Firebase ML工具包识别PDF文件中的文本？

、、

我正在开发一个Android应用程序来检测PDF文件中的文本。我试着测试更多的<

浏览 1提问于2019-03-07得票数 0

1回答

查找没有文本的PDF

、、

我有很多文件夹与很多PDF，我想要光学字符识别那些没有文字层。所以首先，我想找到他们。我以为也许用pdfgrep的烟斗就能做好这份工作，但我迷路了。如何找到没有文本的PDF？

浏览 0提问于2021-01-15得票数 5

回答已采纳

2回答

可将OCR文本插入回源PDF的OCR库

、

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

1回答

直接编辑PDF然后删除编辑仍然会导致pdf损坏。

我的PDF看起来很好，直到我编辑了它，现在它似乎仍然被破坏，即使我删除了我的编辑。文件diff程序表示这两个文件是相同的，但只有一个文件显示信息。复制：2)在文本编辑器中打开PDF并在顶部添加文本4)删除步骤2中添加的文本 5)尽管有相同的文件内容，但PDF仍然损坏。如果我真的将代码从PDF复制并粘贴到不同

浏览 5提问于2017-07-27得票数 0

回答已采纳

2回答

除PDF以外的所有文件链接的JS RegEx

、

我正在尝试匹配HTML文档中包含特定文件夹链接的所有href属性，而不是PDF。我很难让它匹配，我有一个可以得到所有PDF的：但我排除PDF的尝试并没有让我走得太远。有没有办法做我想要的，或者我只是匹配所有的文件而不是使用

浏览 1提问于2013-06-04得票数 0

2回答

柬埔寨字母表上的交货单

、、

我得到了一个问题与Prestashop 1.7.4.2交货单，它不能识别高棉文字母。有谁可以帮助我用哪种字体来显示这些字母？我已经在\override\classes\pdf\PDFGenerator.php中添加了支持的字体，但它不起作用。

浏览 1提问于2020-06-10得票数 2

1回答

如何在PDF中压缩图像？

、、、、

如何在Linux下使用批处理工具提高PDF上的JPEG压缩级别？显然，您可以使用gs -dPDFSETTINGS=/screen或/ebook，但这降低了PDF的采样量--它减少了DPI。在保持相同像素计数的同时使用JPEG压缩，效率更高(从PDF看起来每KB多好的角度来看)。例如：https://docupub.com/pdfcompress/允许你的一半大小的P

浏览 0提问于2021-01-08得票数 2

2回答

使用java从pdf中识别和提取表格

、、、

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。我也使用过PDFBox java，但它也解决不

浏览 12提问于2017-03-31得票数 1

1回答

用PDF>JPG进行pdf2jpg转换

、

我正在尝试将一些PDF转换为JPG，并使用pdf2jpg进行此操作。我运行的代码是：print(inputPath) 奇怪的是，当我运行最后两行注释掉的相同代码时，我得到： C:/Users/Username/Desktop&

浏览 1提问于2018-08-22得票数 3

回答已采纳

1回答

巨蟒中的Camelot不像预期的那样运行。

我有两个pdf文件，都在同一个布局与不同的信息。问题是:我可以很好地阅读其中一个，但另一个是无法识别的数据。这是一个我可以很好地阅读的例子，下载 from_pdf = camelot.read_pdf('2019_05_2.pdf', flavor='stream', strict=False) camelot.plot

浏览 4提问于2021-09-09得票数 0

回答已采纳

1回答

os.walk是否适用于非转义反斜杠？

、

只是在我正在写的一小段代码中发现了一个bug，而实际上并没有bug？for filename in filenames:两者都可以在shell中运行，并且完整的代码运行良好

浏览 19提问于2016-09-12得票数 0

回答已采纳

1回答

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。哪种编程语言和库给了我最大的灵活性来完成这样的任务，而不需要我做所有繁琐的工作。我对Python很熟悉。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别字符并将输

浏览 18提问于2021-04-20得票数 0

回答已采纳

1回答

Android:如何测试显示在WebView中的pdf

、、

在安卓系统中，我想测试包含条款和条件的PDF文件，但是这个文件显示在WebView中。我可以切换到WebView，我使用下面的代码。

浏览 4提问于2022-11-09得票数 -1

2回答

Python2.7:在Windows 7中使用pypdfocr有困难

、、

这是我尝试使用pypdfocr in cmd时得到的错误消息。C:\Users\chamar.stu>pypdfocr F:\test2.pdf开始转换F:\test2.pdf 'pdfimages‘不被识别为内部或外部命令、可操作的程序或批处理文件。警告:无法执行pdfimages来计算DPI (尝试安装xpdf或po ppler?)ValueError: int()的无效文字，基数为10：'00alpha‘ 我似乎错

浏览 2提问于2017-03-17得票数 2

2回答

Jasper报告PDF不接受中文字符

、、

我无法使用jasper报告将中文字符嵌入到pdf中。我得到的是英文字符，而不是中文文本。如果有人能为我提供这个问题的快速修复，我将不胜感激。

浏览 2提问于2015-06-01得票数 3

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

、、、、

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。我尝试了在多种编码和字体之间切换，但仍然无法识别预期的文本。下面是一个例子:假设PDF中的文本是:पवार有什么建议吗？

浏览 3提问于2011-09-20得票数 4

回答已采纳

1回答

FPDF:没有正确输出俄文文本

、、

在我的PHP项目中，我有一个PDF，我想输出俄语文本：Ð¯ Ð´ÐµÐ¹ÑÑ‚Ð²ÑƒÑŽ ÑÐºÐ¾Ñ€ÐµÐµ Ð´Ð¾Ð²ÐµÑ€Ð¸Ñ‚ÐµÐ»ÑŒÐ½Ð¾ Ð 在我的pdf中，不是输出相应的Cyrllic，而是输出这些无法识别的字符。下面是我的FPDF代码的摘录，请注意

浏览 1提问于2016-01-23得票数 0

点击加载更多

Acrobat XI Pro喜欢pdf阅读器

使用Java和Itext编辑PDF文本

如何使用Firebase ML工具包识别PDF文件中的文本？

查找没有文本的PDF

可将OCR文本插入回源PDF的OCR库

直接编辑PDF然后删除编辑仍然会导致pdf损坏。

除PDF以外的所有文件链接的JS RegEx

柬埔寨字母表上的交货单

如何在PDF中压缩图像？

使用java从pdf中识别和提取表格

用PDF>JPG进行pdf2jpg转换

巨蟒中的Camelot不像预期的那样运行。

OCR可以识别PDF文件吗？

os.walk是否适用于非转义反斜杠？

关于拆分PDF和OCR识别

Android:如何测试显示在WebView中的pdf

Python2.7:在Windows 7中使用pypdfocr有困难

Jasper报告PDF不接受中文字符

如何在将文档从PDF转换为文本时处理unicode字符编码问题

FPDF:没有正确输出俄文文本

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐