使用R?从PDF提取/解析为CSV？_使用pytesseract python从扫描的PDF中将表格提取为csv_使用R从双列PDF中提取文本 - 腾讯云开发者社区

r、parsing、pdf、data-extraction

我正尝试从格式不佳的PDF中提取数据到.csv文件中进行地理编码。我可以将此映射保存到MyMaps，并将表复制/粘贴到CSV，但缺少条目。有没有办法干净利落地将这些数据从PDF解析为CSV？我想我需要做的是创建一个带有市场的科罗拉多州城镇的字典(例如：‘'Denver'，'Canon City'，'Telluride')，然后基本上让R<

浏览 15提问于2019-02-27得票数 0

1回答

使用Camelot从此PDF中提取数据时，没有找到表并合并列文本。

python、pdf-parsing、python-camelot

当我试图从附加的PDF中提取表格时，我会得到一个UserWarning: No tables found on page-1。但是，当我查看提取的数据时，一些列文本被合并到一个列中。“我使用来解析这些PDF下面是我正试图解析的PDF链接：

浏览 0提问于2018-11-09得票数 0

回答已采纳

2回答

用Python解析PDF教科书中的索引页

python、pdfminer、pdftotext、named-entity-recognition、natural-language-processing

我必须从PDF页面中提取文本，因为它将缩进CSV文件中。我应该将文本分割为类和子类类型层次结构以及页码。例如，在映像中，应用服务器是类，Apache 是页面编号275中的子类我使用了Tika解析器来解析PDF，但是在解析的内容中，缩进没有得到正确的维护(不是唯一的)，无法将文本分割成类和子类解析的文本如

浏览 0提问于2018-03-03得票数 8

2回答

我有PDF文件，其第一页的数据格式是不同的，但其余的页面有相同的表格格式。我想转换这个PDF文件，其中有多页到CSV文件使用Python Tabula。当前代码能够将PDF转换为CSV，如果PDF只有2页，如果它有两页以上，它就会给出超出范围的错误。我想计算PDF文件的PDF页面的总数，并根据相同的，我希望python脚本转换为不同的数据帧的PDF到CSV。我正在使用Linux

浏览 3提问于2021-11-18得票数 1

1回答

Clojure -将PDF/Doc文件提取为简单文本的最佳方法

file-upload、clojure

我正在寻找一个简单的解决方案来解析每个上传到我的应用程序中的文件，并转换成简单的文本。我的web应用程序运行在Clojure上，并且更喜欢API来解析各种文件类型。

浏览 2提问于2014-12-04得票数 3

回答已采纳

1回答

用CSV和glob重命名文件

python

我正在寻找一个脚本，重新命名所有的PDF文件，我有基于一个.CSV文件，他们需要匹配。CSV文件的编号如下：P10092865P20154177P10058367P10122478等等，CSV文件(P20084579)的第一个编号与All_C_2017.1.pdf等一起使用，所以我想将所有这些数字重命名为P20084579.<e

浏览 1提问于2017-01-26得票数 3

回答已采纳

1回答

如何在Python3.6中从PDF文件中刮取数据

python-3.x、pdf、scrape、web-scripting

我想刮的数据，在第7页的PDF链接：，并移动到数据，然后CSV。请您在同样的帮助，我没有写任何脚本，因为我是新手。

浏览 4提问于2017-08-07得票数 1

2回答

解压缩PDF表格，Python3，tabula-py

python、python-3.x、pdf

正在尝试使用Python 3.6从PDF中提取表格。似乎pyPDF2失败了，pdfminer与3.x不兼容。我找到了tabula的python包装器。import tabulaprint(text) tabula.convert_into(file_list[0], "test.json", ouput_format="jso

浏览 1提问于2017-04-20得票数 4

2回答

NameError: python中没有定义名称“tabula”

python、dataframe、tabula

我试图使用tabula包从pdf中只提取表，并将输出写入csv，不幸的是，下面的代码给出了一个错误，即"NameError: name‘tabula“未定义码from tabula import read_pdffile = r"url" df = read_pdf(file

浏览 10提问于2021-03-15得票数 1

2回答

将PDF或FDF转换为CSV？

libreoffice、pdf

这似乎很疯狂，但是尽管Libre可以导出一个PDF格式的表单，但是无法将完整的表单数据从PDF导入Libre基地第1行："FieldName1，FieldName2 .“ 关于Ge.

浏览 0提问于2015-01-26得票数 4

回答已采纳

1回答

AWS提取液(OCR)不能检测到某些细胞

amazon-web-services、ocr、amazon-textract

我正在使用AWST提取来读取和解析从PDF到CSV的表。可爱，AWS有它的文档！我们可以假设它不是那么好的OCR算法。但是有趣的事实是，如果我在AWST提取控制台中使用相同的 pdf，那么所有的数据都会被解析到表中！你们中有谁知道我

浏览 3提问于2022-11-10得票数 0

回答已采纳

3回答

Java中的PDF解析器API

java、api、pdf、parsing

我想把pdf数据转换成我们自己的文件规格。因此，请帮助我选择正确的应用程序接口为PDF解析使用java或.net。解析应该从PDF页面中提取每个组件(元素)。

浏览 3提问于2010-07-13得票数 7

1回答

从pdf表格中提取数据为结构化格式

python、scraper、pdftotext、pdf-scraping

我想要抓取任何结构化格式的pdf表格数据，如html，xml，json。我使用的是python。我首先使用pdftotext命令行函数将pdf转换为文本。但是我不能区分pdf中表格的数据。pdf图片如下所示：

浏览 4提问于2018-04-17得票数 1

4回答

使用R进行PDF抓取

python、r、pdf、screen-scraping

我已经成功地使用了XML包来提取HTML表，但我想扩展到PDF。如果做不到这一点，在Python (我是一个完全的新手)中有什么方法可以获得和操作pdf，这样我就可以用R XML包来完成这项工作了吗

浏览 10提问于2011-10-27得票数 10

回答已采纳

0回答

从csv提取数据时出现的问题

python、csv、scrapy

class QuotesSpider(scrapy.Spider): 'SIRET':"SIRET",这是一个代码，尝试从

浏览 1提问于2017-01-06得票数 0

回答已采纳

1回答

Python仅从PDF文件中提取表的一部分

python

我有一个PDF文件，正在尝试使用tabula来读取和提取表格。但我只得到了提取到CSV的表中的几行，而不是整个表。PDF文件有什么问题吗？任何帮助都将不胜感激！import tabula tabula.convert_into(r"C:\Users\zjalil\

浏览 25提问于2021-08-13得票数 0

2回答

有没有办法用python把.pdf转换成.csv？

python、tabula

我目前正在尝试tabula-py，但我在提取pdf数据时尝试的所有文档示例都导致了以下错误: returned non-zero exit status 1。因此，我很好奇是否有其他方法可以使用python将pdf表格中的数据转换为csv文件。

浏览 0提问于2020-05-24得票数 0

1回答

如何像Chrome浏览器那样使用Python从PDF中提取文本？

python、pdf、text-extraction

我正在尝试从pdf文件中提取文本(类似于表单)。目前，我在Chrome上打开文件，选择/复制所有文本，将其粘贴到txt文件中，然后使用Python将其处理为CSV。Chrome让我的数据非常结构化和统一，这样pdf的每一页都会产生类似的文本块，让我可以轻松地处理它。我试图直接从pdf中提取文本，以将其处理为CSV格式，但由于原始pdf的生成方式，我总是得

浏览 35提问于2021-06-16得票数 0

1回答

如何使用python读取.tar文件中的pdf内容

python、python-2.7、pdf、apache-tika

我在.tar文件中有文件，我能够从##.tar文件中提取成员，我还使用tika解析器来解析pdf文件，收到文件未发现错误。with tarfile.open(os.path.join(DEFAULT_PATH,filename), "r") as tarf: f = tarf.extractfile(members) parsed_pd

浏览 0提问于2017-08-05得票数 0

2回答

使用python从PDF中获取目录

python、pdf、text、nlp、pymupdf

我正在尝试从PDF中获取目录。为此，我使用了PyMuPDF。但它只在ToC包含书签的情况下才提取出来。否则，它只会产生一个空列表。

浏览 165提问于2020-11-05得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云