pages 软件识别 pdf - 腾讯云开发者社区

、、、

我正在编写一个脚本，它可以“读取”PDF文件，然后自动重命名它从字典中识别的文件。然而，对于某些PDF，PyPDF2只返回空行，而对于其他PDF则可以很好地工作。# Read in file number_of_pages= pdfReader.numPages

浏览 3提问于2017-07-28得票数 2

1回答

PyPdf不逐行读取pdf文本。

、、

我使用PyPdf从pdf文件中读取文本。然而，pyPDF不逐行读取文本，它的读取方式有些随意。把新的线，当它甚至不存在于pdf。import PyPDF2pdfFileObj = open(pdf_path, '2021 Date Received: 10/12/2021 Last Paid: Amt Last Paid: A/C

浏览 13提问于2022-06-14得票数 2

回答已采纳

1回答

这是一种罕见的PNG结尾或图像隐藏吗？

、

我现在正在读关于图像隐写术的文章。我有个测试文件要实验。当我用vim打开PNG文件的末尾时，我注意到了一个奇怪的代码块：0 140000007361 00000 n0000000209 00000 n0000000229 00000 n0000006591 00000 n0000007097 00000 n0000007306 00000 n 0

浏览 0提问于2017-03-02得票数 0

回答已采纳

2回答

mpdf下载没有在服务器上使用laravel

、、

$pdf = PDF::loadView('pages.qrdownload', compact('qr_code'));当我尝试下载使用m软件包的pdf文件时，在极少数情况下pdf是下载，否则pdf下载被取消。上面的图片显示了取消的pdf的错误

浏览 0提问于2018-05-31得票数 0

回答已采纳

4回答

如何用Python从PDF中提取表格？

、

我有数千个PDF文件，仅由表组成，结构如下：我试过PyPDF2，但是数据完全搞砸了。import PyPDF2 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)from tabula import read_pdf pdfFile1 = read_pdf(pdf_file.<

浏览 1提问于2019-05-07得票数 3

回答已采纳

2回答

从linux命令行将PDF格式转换为灰度格式的打印机

、、、、

我试图将PDF文档转换为Grayscale，因为我需要打印机识别每一页中是否包含颜色。如果我用这个脚本检查每个页面，它会返回所有的页面都是sRGB的：Pages: 42: sRGB4: sRGB1 2 3 4 因此，问题是

浏览 3提问于2015-02-04得票数 2

回答已采纳

1回答

我正在寻找一个收据扫描仪，可以扫描非常长的收据(高达30英尺长)，并产生一个单一的图像或PDF。理想情况下，它将具有光学字符识别(optical字符识别)，并生成一个包含文本信息的PDF (例如，当您在Acrobat之类的地方打开PDF时，您可以搜索单词，或者可以使用单独的软件将文本内容提取到一个因为我不希望它用于像Neat这样的软件，所以如果可能的话，我不愿意为包含的软件支付额外的钱。

浏览 0提问于2018-05-09得票数 2

1回答

用pdf管道工从pdf中提取包含多列的文本(Python)

、、

我使用的是pdf水管工，它工作得很好，唯一的问题是这样的pdfs通常包含列，而且我的算法还没有找到识别这一点的方法。我的代码是：with pdfplumber.open(r'example.pdf') as pdf: for i, pg inenumerate(pages): text = text + " &qu

浏览 3提问于2020-10-08得票数 2

1回答

如何使用Python从PDF文件中识别删除文本

、、、、

Document """Convertspdf to docx""" pages = [int(i) for i in list(pages) if i.isnumeric()] result= parse(<em

浏览 5提问于2022-06-13得票数 0

回答已采纳

1回答

将从每个图像检索到的OCR文本写入与每个图像对应的单独文本文件

、、

我正在读取一个pdf文件，并将每个页面转换为图像并保存，接下来我需要在每个图像上运行OCR，并识别每个图像文本并将其写入新的文本文件。pdf_dir = 'dir path' if pdf_file.endswith(".pdf"): pages = conve

浏览 48提问于2019-06-19得票数 0

回答已采纳

1回答

从可搜索的pdf中读取，不带ocr

我目前正在使用扫描仪将我的PDF转换为可搜索的PDF。OCR已经处理好了，因为我可以在PDF中使用ctrl-f。但是，我如何才能从我的程序中获取OCR的内容。

浏览 1提问于2011-12-15得票数 0

2回答

使用Google Cloud Vision的OCR PDF文件？

、、、

目前是否有任何服务或软件工具使用Google Cloud Vision作为OCRing扫描的PDF文件的后端？如果没有，如何使用Google Cloud Vision将PDF转换为OCRed PDF？据我所知，Cloud Vision目前支持PDF文件，但它只能将识别的文本输出为JSON文件。因此，似乎需要在Google Cloud Vision之外的另一个步骤中，将这个转换后的文本放在PDF中的图像顶部。我经常需要将扫描的文档转换为包含OCRed文本层的<e

浏览 0提问于2018-09-15得票数 4

2回答

管理文件夹中的Jekyll页面(在github-页面上)

、、

现在我有这么多的页面，我想在一个名为_pages的文件夹中管理它们。中定义了默认的permalinks，并添加了： - _pages - scope: type: "pages但是，正如您在_pages中看到的那样，我希望有另一个名为cv的子文件夹，并将我的cv.md和my_cv.pdf放在同一个文件夹中(在实际的网站中，我有更多的这些文件供页面使用)。最终

浏览 7提问于2020-05-30得票数 3

1回答

如何使用C#中的itextsharp库识别pdf方向无论是景观还是肖像

、、

有谁知道如何识别pdf方向，无论是景观还是肖像，使用C#中的itextsharp库。 reader = new PdfReader(bytes); // loop over document pages</em

浏览 1提问于2017-08-10得票数 3

回答已采纳

1回答

如何在windows linux上以编程方式将.pages文件格式从苹果转换为pdf

、、、、

如何用一些代码在windows linux上以编程方式将.pages文件格式从苹果转换为pdf。分析了iCloud，但我不确定是否有一个视窗软件开发工具包，可以转换为pdf格式的文件。任何有关如何将.pages文件转换为pdf文件的信息都将非常感谢。

浏览 0提问于2018-12-05得票数 0

1回答

Howto:使用C#在光学字符识别前提高PDF质量

、、、

一旦文件存在，该服务就会提取它，并将其转换为可读的PDF。在此过程中，该服务还会搜索条形码。在此之后，提取文本，并将文件及其文本存储到我们软件的数据库中。该位置基于条形码。现在，对于光学字符识别，我们使用了Atalasoft的SDK ()。此外，条形码识别器也包含在此SDK中。我测试了Kofax ()。我正在寻找类似的东西，但这可以使用某种SDK-kit在服务中实现。

浏览 2提问于2011-07-06得票数 5

回答已采纳

2回答

使用Perl按页面计数的顺序对若干PDF文件进行排序

有谁能就如何根据每个PDF文件的页数对文件夹中的n个PDF文件进行排序，并在文本文件中写出PDF文件的排序列表，提出一个逻辑？例如file2.pdf - 30 pagesfile4.pdf - 20 pages.file35.<e

浏览 1提问于2015-02-02得票数 0

回答已采纳

3回答

tesseract无法拾取页面右侧的字符

、、、

当遍历pdf页面时，tesseract识别一个页面上的字符，类似于：Table 2 Unique Data我检查了从pdf2image创建的图像最右边的文本出现在页面图像中。但是，下面代码中的dataframe (df)没有包含任何有关页面的最右边的数据，也没有尝试任何看起来像是识别的字符。pdf页面

浏览 0提问于2020-06-06得票数 2

1回答

通过剪贴板- python脚本编写操作系统，用Python挖掘pdf数据

、、

我已经写了一个脚本，从pdf中提取数据。我使用win32clipboard模块将数据复制到python中。得到了如何在每个文件中获取所需数据的逻辑。我的过程的缺点是，我必须打开每个pdf Ctr-A来选择所有，然后Ctrl，以使它进入剪贴板。然后运行我的脚本。作为参考，它正在使用DataNitro在Excel中运行。我正在挖掘的PDF包含很多“小”表。剪贴板上的副本似乎做了一个相当下流的工作，把相关的东西放在一起。任何建议，我可以脚本的PDF的开头，选择所有和复制。

浏览 2提问于2013-09-05得票数 0

回答已采纳

1回答

在ASP.NET网页表单应用程序中设置PDF页面的纸张来源

、、、、

我有一个使用网页表单的ASP.NET应用程序，我正在尝试打印一个PDF。我目前使用DynamicPDF在一个新的选项卡中生成PDF，但我们公司的Dynamic PDF模块不处理打印。我需要打印一个两页的PDF。第一页需要用于信封，然后第二页需要像正常一样打印一张常规纸张。有人知道如何在代码中设置纸质源吗？

浏览 6提问于2016-07-26得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

对于某些文件，PyPDF2仅返回空行

PyPdf不逐行读取pdf文本。

这是一种罕见的PNG结尾或图像隐藏吗？

mpdf下载没有在服务器上使用laravel

如何用Python从PDF中提取表格？

从linux命令行将PDF格式转换为灰度格式的打印机

寻找收据扫描器，而不是连续扫描任何长度的收据。

用pdf管道工从pdf中提取包含多列的文本(Python)

如何使用Python从PDF文件中识别删除文本

将从每个图像检索到的OCR文本写入与每个图像对应的单独文本文件

从可搜索的pdf中读取，不带ocr

使用Google Cloud Vision的OCR PDF文件？

管理文件夹中的Jekyll页面(在github-页面上)

如何使用C#中的itextsharp库识别pdf方向无论是景观还是肖像

如何在windows linux上以编程方式将.pages文件格式从苹果转换为pdf

Howto:使用C#在光学字符识别前提高PDF质量

使用Perl按页面计数的顺序对若干PDF文件进行排序

tesseract无法拾取页面右侧的字符

通过剪贴板- python脚本编写操作系统，用Python挖掘pdf数据

在ASP.NET网页表单应用程序中设置PDF页面的纸张来源

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐