腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
提取
pdf
文件中指定字符串的位置。
、
我不熟悉
pdf
渲染系统或postscript,我想知道原则上是否可以
提取
pdf
中
字符串的位置。即:
pdf
标准支持这一点吗?
浏览 5
提问于2022-10-18
得票数 0
1
回答
使用
python
读取
pdf
的
文本框
中
的数据
、
、
、
我有一个包含
文本框
、单选按钮、复选框等的
pdf
文件。如何使用
python
从
pdf
中
提取
所有数据?当我尝试使用pdfminer或pypdf2时,我无法抓取
文本框
中
的数据。请参阅附件
中
的图像。例如:当我使用pdfminer时,我可以删除"1)程序:“,但不能删除它的值(即"EPIC_AFCS_AB139_7APD")。
浏览 2
提问于2017-12-01
得票数 0
1
回答
如何从
python
的
pdf
中
提取
高光和
文本框
内容?
、
我想使用
python
从
PDF
中
提取
高光、
文本框
和
文本框
颜色。我在安装poppler时遇到了麻烦,在相关的问题中已经提到了doc = fitz.open("example.
pdf
") page =
浏览 14
提问于2022-05-19
得票数 0
1
回答
如何使用
Python
从
PDF
中
的特定区域
提取
文本?
、
、
、
我正在尝试使用
Python
从
PDF
中
提取
文本,并且我已经成功地使用了PyPDF2,如下所示:pdfFileObj = open('path', 'rb')pageObj = pdfReader.getPage(0)这将从页面中
提取
所有文本,但我只想从页面左上角的3'x4‘矩形区域中
提取
文本。我
浏览 13
提问于2017-08-21
得票数 9
1
回答
Azure机器学习无法将
PDF
作为web服务的输入
、
这些文档是
PDF
格式的。当我将这个实验部署为web服务时,它不允许我输入
PDF
。有没有一种方法可以将
PDF
输入到web服务?
浏览 0
提问于2017-02-06
得票数 1
1
回答
在
python
中
是否有一种方法只
提取
核心文本(没有框、页脚等)。从
pdf
里?
、
、
、
、
我只想从一个“富”
pdf
文档中
提取
核心文本,这意味着它有很多我不感兴趣的表格、图表、框、页脚等等。我尝试使用一些常见的
python
包,如PyPDF2、pdfplumber或pdfreader.The,显然它们
提取
了
pdf
中所有的文本,包括上面列出的那些我不感兴趣的部分。file = PdfReader(file)text = page.extract_text() 这段代码将为我从第11页获得整个文本,包括页脚、框、表格
中
的文本和页面的编号
浏览 11
提问于2022-11-07
得票数 -1
回答已采纳
1
回答
从
pdf
文件
中
读取图像
、
、
、
、
我有一个要求,客户将上传一个
pdf
文件,其中包含图像/s。我必须读取那个
pdf
文件,从它们中
提取
图像,然后将图像保存到db和硬盘
中
。但我不知道如何使用
Python
/Django代码从
pdf
文件中
提取
图像。是否有从
pdf
文件
中
读取和
提取
图像的
python
库。 提前谢谢。
浏览 2
提问于2013-08-09
得票数 0
回答已采纳
2
回答
可以在
Python
中
提取
带有空格的
pdf
吗?
、
、
在创建了一个使用java和pdfbox
提取
pdf
的工具之后,我一直在尝试用
Python
提取
pdf
。虽然对于相同的
pdf
,Java实现是成功的,但我一直在努力在
python
中
做同样的事情,因为pdfminer和pypdf和pypdf2都不能逐行
提取
带有空格的
pdf
。特别是,出于某种奇怪的原因,pdfminer
pdf
2txt将
pdf
拆分为3列,然后逐行读取。 我得到的最接近的是使用的
浏览 10
提问于2013-06-16
得票数 4
1
回答
如何在
Python
中将
PDF
中
的字节转换为字符串?
、
、
我尝试将从book_download_page = requests.get(link)获取的字节转换为字符串,然后从content = book_download_page.content转换为字符串。 我试过的是, content = book_download_page.content.decode('utf-8') 我得到了错误, 'utf-8' codec can't decode byte 0xe2 in position 10: invalid continuation byte 编辑-您可以尝试this link进行下载 谢谢!
浏览 21
提问于2020-06-25
得票数 0
1
回答
如何
提取
PDF
年度报告的叙述部分以进行文本分析?
报告以
PDF
格式提供。提前感谢!
浏览 0
提问于2020-11-11
得票数 1
3
回答
从
pdf
文件
中
获取数据
、
我有一张
pdf
文件
中
的表格。有x,y,z列。我只想要x列。有可能使用
python
吗?如果是,怎么做? 然后我想要画x和y。我该怎么做(使用表
中
的数据)
浏览 23
提问于2022-04-14
得票数 -1
1
回答
使用
python
从pdfs中
提取
特定文本
、
、
我尝试过不同的
python
库来从pdfs中
提取
特定的文本,我必须从这个
pdf
中
提取
标题下的文本,我必须将从例1开始的文本
提取
为菱形粗体。 下一个
pdf
包含不同格式的的数据。在这个
pdf
中
,我必须从历史
提取
数据到检查,然后从检查到调查与历史和调查作为一个excel文件
中
的列和相应的数据行。
python
regex不能满足这个条件,因为每种
pdf
格式都是不同的,我们需要来自不同pdfs
浏览 20
提问于2022-06-30
得票数 0
1
回答
同步检测和分析多页文档
PDF
中
的文本
、
、
、
我是否需要对图像进行预处理,以获得更好的亚马逊
提取
结果?
浏览 2
提问于2020-06-30
得票数 0
2
回答
索引安全
pdf
没有选择副本
、
、
、
、
我需要能够索引和搜索“安全的”
PDF
。这些
PDF
有"No Copy“属性被选中并被锁定。这意味着没有用户名和密码就无法复制
PDF
的内容。IFilter尊重这些设置,不允许对
PDF
进行索引。我正在寻找一种使用aspx.net在我的服务器上索引和搜索这些
PDF
的方法。似乎我被以下一项困住了: 将全部内容复制
浏览 5
提问于2012-10-02
得票数 1
回答已采纳
1
回答
利用深度学习从
PDF
中
提取
短语
、
我想教一个人工智能从
PDF
中
提取
特定的短语。例如,产品名称在文档
中
的某个位置,AI必须找到并
提取
它。我的问题是,是否最好将
PDF
作为图像或
提取
的字符串提供,因为文档是粗略构造的。
浏览 2
提问于2019-11-25
得票数 1
回答已采纳
1
回答
如何在纯
Python
中
从
PDF
中
提取
图像?
、
、
、
、
我正在开发一个服务,其中我现在需要从
PDF
文件中
提取
图像。在Linux命令行
中
,我可以使用之类的
提取
图像因为我使用的是
Python
Flask框架,并且我想在Heroku上运行我的服务,所以我想使用纯
Python
(或者可以在Flask系统
中
运行在Heroku上的任何库)来
提取
图像。有人知道如何用纯
Python
从
pdf</
浏览 4
提问于2014-11-28
得票数 4
1
回答
我如何阅读
python
的
pdf
?
、
、
、
我如何在
python
中
读取
pdf
?我知道一种将它转换为文本的方法,但是我想直接从
pdf
中
读取内容。 有人能解释一下
python
中
哪个模块最适合
pdf
提取
吗?
浏览 2
提问于2017-08-21
得票数 45
1
回答
使用
Python
从Adobe签名(e签名)Acroform中
提取
表单字段数据
、
、
、
我正在尝试从电子签名的
PDF
表单中
提取
字段名和相应的字段值,我将其上传到Adobe 并获得了电子签名。参见链接:。 在上传
PDF
表单之前,它是Acroform,即包含表单字段的可编辑
PDF
。从Acroform
中
,我能够使用PDFTK
提取
字段名和字段值。此外,在Adobe上签署此表单之后,尽管
PDF
不再是可编辑的(字段被锁定),我仍然可以使用PDFTK从
PDF
文档中
提取
数据。但是,在使用Adobe 请求和获取签名之后,我很难使用PDFT
浏览 5
提问于2021-06-07
得票数 0
3
回答
如何从
PDF
文件中
提取
文本和文本坐标?
、
、
我想要
提取
所有的
文本框
和
文本框
坐标从一个PDFMiner文件。489, 41, "Signature"630, 202, "a_g_i_r"
浏览 6
提问于2014-04-07
得票数 40
回答已采纳
1
回答
我无法读取.docx文件,这是我使用soffice命令转换
pdf
后得到的
、
、
、
、
我正在尝试使用soffice将
pdf
转换为docx。它将其转换为.docx,但它提供的
文本框
我无法使用
python
提供的docx api读取。有没有更好的方法来读取文件,或者有更好的方法将
pdf
转换成docx,这样我就不会得到
文本框
了?soffice --infilter="writer_
pdf
_import" --convert-to docx "convert_this.
pdf
"
浏览 29
提问于2019-12-16
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券