腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
R
?
从
PDF
提取
/
解析
为
CSV
?
r
、
parsing
、
pdf
、
data-extraction
我正尝试
从
格式不佳的
PDF
中
提取
数据到.
csv
文件中进行地理编码。我可以将此映射保存到MyMaps,并将表复制/粘贴到
CSV
,但缺少条目。 有没有办法干净利落地将这些数据
从
PDF
解析
为
CSV
?我想我需要做的是创建一个带有市场的科罗拉多州城镇的字典(例如:‘'Denver','Canon City','Telluride'),然后基本上让
R<
浏览 15
提问于2019-02-27
得票数 0
1
回答
使用
Camelot从此
PDF
中
提取
数据时,没有找到表并合并列文本。
python
、
pdf-parsing
、
python-camelot
当我试图
从
附加的
PDF
中
提取
表格时,我会得到一个UserWarning: No tables found on page-1。但是,当我查看
提取
的数据时,一些列文本被合并到一个列中。“我
使用
来
解析
这些
PDF
下面是我正试图
解析
的
PDF
链接:
浏览 0
提问于2018-11-09
得票数 0
回答已采纳
2
回答
用Python
解析
PDF
教科书中的索引页
python
、
pdfminer
、
pdftotext
、
named-entity-recognition
、
natural-language-processing
我必须
从
PDF
页面中
提取
文本,因为它将缩进
CSV
文件中。我应该将文本分割
为
类和子类类型层次结构以及页码。例如,在映像中,应用服务器是类,Apache 是页面编号275中的子类我
使用
了Tika
解析
器来
解析
PDF
,但是在
解析
的内容中,缩进没有得到正确的维护(不是唯一的),无法将文本分割成类和子类
解析
的文本如
浏览 0
提问于2018-03-03
得票数 8
2
回答
无法
使用
表格将
PDF
文件的多个
PDF
页面转换为
CSV
python
、
csv
、
pdf
、
tabula-py
我有
PDF
文件,其第一页的数据格式是不同的,但其余的页面有相同的表格格式。我想转换这个
PDF
文件,其中有多页到
CSV
文件
使用
Python Tabula。当前代码能够将
PDF
转换为
CSV
,如果
PDF
只有2页,如果它有两页以上,它就会给出超出范围的错误。我想计算
PDF
文件的
PDF
页面的总数,并根据相同的,我希望python脚本转换为不同的数据帧的
PDF
到
CSV
。 我正在
使用
Linux
浏览 3
提问于2021-11-18
得票数 1
1
回答
Clojure -将
PDF
/Doc文件
提取
为
简单文本的最佳方法
file-upload
、
clojure
我正在寻找一个简单的解决方案来
解析
每个上传到我的应用程序中的文件,并转换成简单的文本。我的web应用程序运行在Clojure上,并且更喜欢API来
解析
各种文件类型。
浏览 2
提问于2014-12-04
得票数 3
回答已采纳
1
回答
用
CSV
和glob重命名文件
python
我正在寻找一个脚本,重新命名所有的
PDF
文件,我有基于一个.
CSV
文件,他们需要匹配。
CSV
文件的编号如下:P10092865P20154177P10058367P10122478等等,
CSV
文件(P20084579)的第一个编号与All_C_2017.1.
pdf
等一起
使用
,所以我想将所有这些数字重命名为P20084579.<e
浏览 1
提问于2017-01-26
得票数 3
回答已采纳
1
回答
如何在Python3.6中
从
PDF
文件中刮取数据
python-3.x
、
pdf
、
scrape
、
web-scripting
我想刮的数据,在第7页的
PDF
链接:,并移动到数据,然后
CSV
。 请您在同样的帮助,我没有写任何脚本,因为我是新手。
浏览 4
提问于2017-08-07
得票数 1
2
回答
解压缩
PDF
表格,Python3,tabula-py
python
、
python-3.x
、
pdf
正在尝试
使用
Python 3.6
从
PDF
中
提取
表格。似乎pyPDF2失败了,pdfminer与3.x不兼容。我找到了tabula的python包装器。import tabulaprint(text) tabula.convert_into(file_list[0], "test.json", ouput_format="jso
浏览 1
提问于2017-04-20
得票数 4
2
回答
NameError: python中没有定义名称“tabula”
python
、
dataframe
、
tabula
我试图
使用
tabula包
从
pdf
中只
提取
表,并将输出写入
csv
,不幸的是,下面的代码给出了一个错误,即"NameError: name‘tabula“未定义码from tabula import read_
pdf
file =
r
"url" df = read_
pdf
(file
浏览 10
提问于2021-03-15
得票数 1
2
回答
将
PDF
或FDF转换为
CSV
?
libreoffice
、
pdf
这似乎很疯狂,但是尽管Libre可以导出一个
PDF
格式的表单,但是无法将完整的表单数据
从
PDF
导入Libre基地第1行:"FieldName1,FieldName2 .“ 关于Ge.
浏览 0
提问于2015-01-26
得票数 4
回答已采纳
1
回答
AWS
提取
液(OCR)不能检测到某些细胞
amazon-web-services
、
ocr
、
amazon-textract
我正在
使用
AWST
提取
来读取和
解析
从
PDF
到
CSV
的表。可爱,AWS有它的文档!我们可以假设它不是那么好的OCR算法。但是有趣的事实是,如果我在AWST
提取
控制台中
使用
相同的
pdf
,那么所有的数据都会被
解析
到表中!你们中有谁知道我
浏览 3
提问于2022-11-10
得票数 0
回答已采纳
3
回答
Java中的
PDF
解析
器API
java
、
api
、
pdf
、
parsing
我想把
pdf
数据转换成我们自己的文件规格。因此,请帮助我选择正确的应用程序接口
为
PDF
解析
使用
java或.net。
解析
应该
从
PDF
页面中
提取
每个组件(元素)。
浏览 3
提问于2010-07-13
得票数 7
1
回答
从
pdf
表格中
提取
数据
为
结构化格式
python
、
scraper
、
pdftotext
、
pdf-scraping
我想要抓取任何结构化格式的
pdf
表格数据,如html,xml,json。我
使用
的是python。我首先
使用
pdftotext命令行函数将
pdf
转换为文本。但是我不能区分
pdf
中表格的数据。
pdf
图片如下所示:
浏览 4
提问于2018-04-17
得票数 1
4
回答
使用
R
进行
PDF
抓取
python
、
r
、
pdf
、
screen-scraping
我已经成功地
使用
了XML包来
提取
HTML表,但我想扩展到
PDF
。如果做不到这一点,在Python (我是一个完全的新手)中有什么方法可以获得和操作
pdf
,这样我就可以用
R
XML包来完成这项工作了吗
浏览 10
提问于2011-10-27
得票数 10
回答已采纳
0
回答
从
csv
提取
数据时出现的问题
python
、
csv
、
scrapy
class QuotesSpider(scrapy.Spider): 'SIRET':"SIRET",这是一个代码,尝试
从
浏览 1
提问于2017-01-06
得票数 0
回答已采纳
1
回答
Python仅从
PDF
文件中
提取
表的一部分
python
我有一个
PDF
文件,正在尝试
使用
tabula来读取和
提取
表格。但我只得到了
提取
到
CSV
的表中的几行,而不是整个表。
PDF
文件有什么问题吗? 任何帮助都将不胜感激!import tabula tabula.convert_into(
r
"C:\Users\zjalil\
浏览 25
提问于2021-08-13
得票数 0
2
回答
有没有办法用python把.
pdf
转换成.
csv
?
python
、
tabula
我目前正在尝试tabula-py,但我在
提取
pdf
数据时尝试的所有文档示例都导致了以下错误: returned non-zero exit status 1。因此,我很好奇是否有其他方法可以
使用
python将
pdf
表格中的数据转换为
csv
文件。
浏览 0
提问于2020-05-24
得票数 0
1
回答
如何像Chrome浏览器那样
使用
Python
从
PDF
中
提取
文本?
python
、
pdf
、
text-extraction
我正在尝试
从
pdf
文件中
提取
文本(类似于表单)。目前,我在Chrome上打开文件,选择/复制所有文本,将其粘贴到txt文件中,然后
使用
Python将其处理
为
CSV
。Chrome让我的数据非常结构化和统一,这样
pdf
的每一页都会产生类似的文本块,让我可以轻松地处理它。我试图直接
从
pdf
中
提取
文本,以将其处理
为
CSV
格式,但由于原始
pdf
的生成方式,我总是得
浏览 35
提问于2021-06-16
得票数 0
1
回答
如何
使用
python读取.tar文件中的
pdf
内容
python
、
python-2.7
、
pdf
、
apache-tika
我在.tar文件中有文件,我能够
从
##.tar文件中
提取
成员,我还
使用
tika
解析
器来
解析
pdf
文件,收到文件未发现错误。with tarfile.open(os.path.join(DEFAULT_PATH,filename), "
r
") as tarf: f = tarf.extractfile(members) parsed_
pd
浏览 0
提问于2017-08-05
得票数 0
2
回答
使用
python
从
PDF
中获取目录
python
、
pdf
、
text
、
nlp
、
pymupdf
我正在尝试
从
PDF
中获取目录。为此,我
使用
了PyMuPDF。但它只在ToC包含书签的情况下才
提取
出来。否则,它只会产生一个空列表。
浏览 165
提问于2020-11-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
三大神器助力Python提取pdf文档信息
推荐一个跨平台支持Word,Excel,CSV,Email等30多种格式的操作库
Python新工具:用三行代码提取PDF表格数据
老板,这些活一个人就行!妙用Python多干活
干货!Python基础教程之Python爬虫工具列表详解
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券