使用pytesseract python从扫描的PDF中将表格提取为csv

文章/答案/技术大牛

发布

1回答

python、python-3.x、python-tesseract

我有不同类型的发票文件，我想在每个发票文件中查找表。我可以使用'pdf2jpg‘方法将扫描的pdf转换为图像，现在我必须从每张发票中提取表格，并使用OCR pytesseract方法写入csv文件。

浏览 34提问于2020-01-14得票数 0

1回答

使用python从PDF中提取扫描页面

python、pdf

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中<e

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

如何使用Python从手写扫描的PDF中提取数据？

python、ocr、python-tesseract、handwriting-recognition

所以我有这些PDF，它们是结构化反馈表的扫描副本。该表单具有用于手写备注的复选框和空白处。我正在尝试从这些PDF中提取数据并将其保存到非结构化的CSV文件中。现在使用pytesseract，我能够捕获打印的文本(首先将PDF转换为图像)，但无法捕获手写内容。有没有人在做这件事。随函附上一份样本表格，以供参考。

浏览 16提问于2019-08-04得票数 0

1回答

如何使用pytesseract从pdf文件的图像中提取文本

python、pdf、python-tesseract

我正在尝试使用下面的代码从pdf文件的图像中提取文本。PDF文件是合同文档，是合同的扫描副本。pdf文件中的所有页面都是图像。当我尝试使用下面的代码提取数据时，我得到一个错误，说它无法读取文件/无法识别图像文件。(Image.open('C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python<

浏览 3提问于2018-09-27得票数 0

2回答

使用python从扫描的Pdf中提取pdf数据

python-3.x、ocr、python-tesseract、pdfminer、pdf-extraction

我用tesseract ocr从扫描的pdf文件中提取数据，我可以提取数据，但精度不好。在很多地方，它显示了错误的数据，所以我可以通过python获得100%准确的数据。首先，我将pdf转换为jpg格式，然后使用tesseract模块从图像中提取数据。from PIL import Image text=(

浏览 11提问于2019-08-22得票数 1

1回答

如何从PDF文件中正确提取日文txt

python、algorithm

我需要从pdf文件中提取文本。谁能给我一个如何处理的提示？

浏览 5提问于2022-02-22得票数 1

回答已采纳

1回答

将PDF中的文本提取为JSON或XML或其他格式？

json、xml、pdf

我试图从PDF中提取数据，价格，信息和数字(我有超过10000个PDF，所以网站的免费试用将不起作用)。下面是我得到的一个PDF示例：我用Python语言(这类任务的初学者，还有Python语言)和几个包(如PyPDF2、pdfx等等)尝试过，但我只能得到这样的文本所以可以提取价格，数字和信息，但我有不同的</em

浏览 2提问于2019-01-01得票数 0

2回答

有没有办法用python把.pdf转换成.csv？

python、tabula

我目前正在尝试tabula-py，但我在提取pdf数据时尝试的所有文档示例都导致了以下错误: returned non-zero exit status 1。因此，我很好奇是否有其他方法可以使用python将pdf表格中的数据转换为csv文件。

浏览 0提问于2020-05-24得票数 0

5回答

将扫描的pdf转换为文本python

python、pdf、ocr、ghostscript

我有一个扫描的pdf文件，我试图从中提取文本。我尝试使用pypdfocr在其上进行ocr，但出现错误：谢谢。, pypdfocr_tesseract.<

浏览 111提问于2017-08-03得票数 13

回答已采纳

2回答

如何逐行读取pdf文件并创建CSV

python、pdf、scrapy、pdf-scraping

这是我的pdf Prop #这是相当混乱的。或者是因为PDF的格式是不可读的？我想有一种方法可以删除每一行，并通过迭代或其他方式创建包含列的CSV。例如使用列填充<

浏览 3提问于2014-09-17得票数 0

1回答

当图像是表格时，是否可以更改图像的部分背景颜色？

python、opencv、ocr、opencv3.1、python-tesseract

我正在使用pytesseract，枕头，cv2来光学字符识别图像和获取图像中存在的文本。由于我的输入是扫描的PDF文档，因此我首先将其转换为图像(JPEG)格式，然后尝试提取文本。我只走了一半。输入是一个表格，并且不显示标题，因为标题具有黑色背景。#import pillow #Since scanned PDF can't be handled by pdf2image, conve

浏览 2提问于2019-01-14得票数 1

1回答

扫描PDF文档和图像的搜索工具

pdf、search、text-search

我正在寻找一个工具，可以搜索扫描PDF文档和图像中的文本。我试过Evernote，我真的很喜欢它，但是我不想在别人的云上有个人文档。我是一个开发人员，所以我可以自己做一些小事情，但解析PDF文件的文本是远远超出我的范围。无云服务应该能够可靠地处理多达100,000份文件。必须在具有8GB RAM的Linux或Windows 10上运行最好有一个安全<e

浏览 0提问于2017-05-23得票数 2

回答已采纳

1回答

是否可以从pandas dataframe中的图像中读取表数据？

python、pandas、image、dataframe

有没有办法将扩展名为.jpeg/.png/.bmp的图像读取到pandas数据帧中？图像将包含表数据，如下所示：请告诉我有没有办法从图像中读取表格内容到pandas数据帧中。谢谢!

浏览 2提问于2021-10-08得票数 2

2回答

如何使用camelot从pdf中提取表格？

python、csv、pdf、python-camelot

我想在python3中使用camelot从pdf中提取所有的表格。# PDF file to extract tables fromtables = camelot.read_pdf(file)print("Total

浏览 29提问于2020-05-27得票数 1

1回答

如何使用aws从文档中提取服务和.net导出CSV表格

.net、amazon-web-services、amazon-textract

我试图使用AWS的DetectDocument (异步)从PDF文件中提取表格和数据，使用的是C#/.NET。我在数据提取方面很成功，但我不知道如何使用AnalyzeDocument提取PDF中的表格并导出到CSV文件中。阅读亚马逊网络服务的文档，在Python中找到CSV

浏览 21提问于2019-09-03得票数 1

回答已采纳

1回答

EasyOCR -表格提取

python、ocr、fine-tune、easyocr

我使用easyocr从照片或扫描的PDF中提取表格，但在将数据微调为表时遇到了问题。我试着根据提取的坐标制作一个可搜索的pdf，但是当我把它转换成csv时，这些行是不调的。

浏览 15提问于2022-07-01得票数 2

4回答

Tesseract ocr PDF作为输入

c#、ocr、tesseract

我正在构建一个OCR项目，我正在为.Net使用一个包装器。包装器没有展示如何将PDF作为输入处理的示例。使用PDF作为输入，如何使用c#生成可搜索的PDF？我使用鬼怪脚本库将Pdf转换成图像，然后用它来输入Tesseract，它工作得很好，但是我没有保存Pdf的原始形状，我只得到了文本如何在保存原始Pdf格式的情况下从

浏览 21提问于2015-04-15得票数 23

1回答

如何提取pdf格式的表列数据并存储在变量python中

python、python-3.x、regex、pypdf2、python-camelot

我有3个表(图像粘贴)，所有3个表(有相同的列)看起来都一样，我希望在变量中存储3个表的地址列(黄色)的数据。 

浏览 8提问于2022-02-16得票数 -1

2回答

利用openCV和OCR从不规则表格中提取数据

c#、python、c++、opencv

我试图从表单(表单的扫描图像)中提取信息，并将这些信息放入表中。我使用pytesseract对OCR图像进行了很好的处理，但是输出的问题是Tesseract试图逐行提取文本。我的扫描表格看起来如下：窗体的每个窗口(A、B、C)应该是表中的不同行。我试图使用(在python中)来标识各个窗口，1)识别单个

浏览 2提问于2016-07-26得票数 7

回答已采纳

1回答

使用pytesseract从类型为'PIL.PpmImagePlugin.PpmImageFile‘的图像中提取文本时出错

python、python-tesseract

尝试使用pytesseract从类型为'PIL.PpmImagePlugin.PpmImageFile'的图像中提取文本。代码和错误如下pages = convert_from_path('D:/pdf_csv/HealthCare/eRDS- ML/eRDS - ML/20

浏览 59提问于2019-07-09得票数 2

点击加载更多