腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
在
Python
中
从
PDF
中
提取
单词
列表
、
、
、
我正在尝试以
列表
的形式
提取
PDF
中
的
单词
。我可以
从
PDF
中
提取
文本,但不能将其放入
列表
中
import PyPDF2PDFfilename = '1200.
pdf
' pdfFileObj = open
浏览 14
提问于2019-06-26
得票数 0
2
回答
从
pdfs和文档中
提取
文本和元数据
、
我想知道如何
从
文档such as bold text or big titles中
提取
文本和相关元数据的方法。那么,我如何
从
文件中
提取
所需的数据呢?
浏览 11
提问于2020-10-22
得票数 0
回答已采纳
4
回答
PDF
-将单个
单词
拆分为单独的行-
Python
3
、
、
、
我正在尝试将
PDF
中
的
单词
提取
到单独的行
中
,但只能对文本文件执行此操作,如下所示。 此外,规则是我不能将
PDF
文件转换为TXT,然后执行此操作。必须对
PDF
文件执行此操作。我也需要对可搜索的
PDF
文件做同样的事情。任何帮助都将不胜感激。
浏览 66
提问于2019-12-06
得票数 0
回答已采纳
1
回答
使用
python
显示docx文件的内容
、
我想在docx
中
显示数据。但是我下面的代码是
提取
文本和打印it.Can,有人建议我怎么做呢?encode('ascii', 'ignore').decode('ascii') 我需要显示数据,因为它是
在
docx在这里,我的表
中
的文本正在显示,但没有显示表。这里能做些什么?
浏览 2
提问于2019-09-23
得票数 1
3
回答
Python
:当
从
pdf
中
提取
文本时,如何解决合并的
单词
?
、
、
、
、
我正在努力从一组
pdf
文件中
提取
单词
。这些文件是我
从
网上下载的学术论文。import PyPDF2 as
pdf
#I)
浏览 17
提问于2022-03-16
得票数 0
回答已采纳
1
回答
python
pypdf来读取
pdf
并获得突出显示的
单词
、
、
如何使用
python
pypdf来读取
pdf
并获得高亮显示的
单词
?我
在
pdf
中
突出显示了未登录的
单词
,我想将它们
提取
出来供以后参考。
浏览 2
提问于2011-05-16
得票数 0
回答已采纳
1
回答
使用pdftotext后:
从
txt
中
查找字符串页面
、
我目前正在用
python
编码,并设法使用pdftotext
从
pdf
中
提取
文本。但是,
在
找到
单词
的位置后,我希望能够参考最初的
pdf
。详细来说,我感兴趣的是页面,甚至
浏览 0
提问于2016-07-21
得票数 1
1
回答
将
PDF
文档
中
的文本
提取
为单独的新文件名文档
、
、
、
我有大量的
PDF
文件(>2k文件),它们看起来类似于这个(
PDF
样本图像)
提取
将类似于以下内容:samplepdf_B.
pdf
-缩进B
中
的文本(前
浏览 0
提问于2022-05-09
得票数 1
回答已采纳
2
回答
提取
LTFigure对象后面的文本
、
、
我正在使用
python
pdfminer库(参见docs)
从
pdf
文件中
提取
文本。 然而,pdfminer似乎无法
提取
某些文件
中
的所有文本,而是
提取
LTFigure对象。假设从这个对象的位置,它“覆盖”了一些文本,因此这个文本没有被
提取
出来。
pdf
文件和包含
从
pdf
提取
信息的代码的简短jupyter笔记本都在我专门创建的Github存储库
中
,目的是提出这个问题:
浏览 149
提问于2021-01-28
得票数 0
回答已采纳
1
回答
将pdfminer bbox坐标转换为iOS屏幕
、
、
我
在
swift
中
做了一个iPad应用程序项目,我需要
提取
pdf
word bbox坐标并将其转换为iPad屏幕坐标。这样做的目的是我能够检测到一个
单词
何时被触摸。我使用webview来显示
pdf
,并且使用
python
中
的pdfminer库来
提取
单词
bboxes (我
提取
字符bboxes,我可以通过分隔
单词
之间的空格来获取
单词
)。
浏览 40
提问于2016-09-23
得票数 0
回答已采纳
3
回答
用于读取
PDF
文件的
Python
、
我发现很多帖子都提出了阅读
PDF
的解决方案。我想一个字一个字地阅读
PDF
文件,并对它做一些处理。人们推荐pdfMiner,它可以将整个
PDF
文件转换成文本文件。但我想要的是一个字一个字地读
PDF
。
浏览 2
提问于2011-05-10
得票数 11
回答已采纳
3
回答
从
pdf
文件
中
获取数据
、
我有一张
pdf
文件
中
的表格。有x,y,z列。我只想要x列。有可能使用
python
吗?如果是,怎么做? 然后我想要画x和y。我该怎么做(使用表
中
的数据)
浏览 23
提问于2022-04-14
得票数 -1
1
回答
如何将索引与nltk.corpus
中
的
单词
结合使用?
、
如果我想从words.words()获得第1252个
单词
,我会怎么做?我当然可以做这样的事,但它太丑了,我几乎看不见它。
浏览 5
提问于2016-08-18
得票数 0
回答已采纳
2
回答
如何在android
中
解析
PDF
文件?
、
、
、
此应用程序允许用户突出显示
PDF
文件
中
的
单词
。然后必须
提取
这些
单词
,那么我如何解析
PDF
文件才能在没有任何库的情况下
从
文件
中
获取
提取
的
单词
?有人能帮我吗?
浏览 5
提问于2014-03-09
得票数 0
回答已采纳
1
回答
使用带有重复结尾词的regex
提取
字符串的区段
、
我正在尝试使用
python
中
的re模块
提取
一些原始字符串。要
提取
的部分的末尾由一个重复
单词
(重复多次)标识,当前的工作总是捕获重复
单词
的最后匹配。我如何才能改变这种行为?
从
pdf
中
提取
了一个文本文件。整个
PDF
存储为一个字符串。字符串的一般格式如下:要捕获的字符串是:“字母数字
单词</e
浏览 0
提问于2019-04-13
得票数 0
回答已采纳
1
回答
如何在PyPDF2
中
增加对空格的容忍度?
、
、
、
我正在寻找最简单的方法来转换
PDF
到
Python
中
的纯文本。PyPDF2看起来很简单,下面是我所拥有的:import PyPDF2for page in
pdf
.pages:但它给了我: InChapter5wepresentandevaluateourresu
浏览 0
提问于2014-02-10
得票数 0
3
回答
如何计算给定
PDF
中
给定
单词
的数量?
面试问题问题的措辞如下: 如何在
PDF
中
获得给定
单词
的实例计数。答案不一定是编程、平台或特定工具。
浏览 0
提问于2012-01-24
得票数 5
回答已采纳
3
回答
在
Python
中
阅读
PDF
包?
、
、
我有一个
pdf
组合,这是由一个电子邮件线程,每个电子邮件包含附件。我想阅读每封电子邮件的文本,并
提取
附件。但是,我找不到关于如何在
python
中
阅读
pdf
包的信息。我尝试过使用库PDFMiner和textract,但输出结果只是这样:“为了获得最佳体验,请在Acrobat X或Adobe Reader X或更高版本
中
打开此
PDF
包。
浏览 0
提问于2017-01-12
得票数 0
1
回答
Azure机器学习无法将
PDF
作为web服务的输入
、
我
在
azure ML上部署了一个随机的森林实验,我试图根据文档包含的
单词
对文档进行评分。这些文档是
PDF
格式的。当我将这个实验部署为web服务时,它不允许我输入
PDF
。有没有一种方法可以将
PDF
输入到web服务?
浏览 0
提问于2017-02-06
得票数 1
1
回答
R-迭代
PDF
中
的页面
、
、
我有一系列包含各种数据表的
PDF
文件。我只
在
每个文件
中
寻找一个特定的表,我的目标是找到每个文件在哪个页面上。我一直
在
研究PDFTools,但看起来没有一种方法可以遍历页面。任何帮助都将不胜感激!
浏览 4
提问于2017-01-19
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券