腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
提取
LTFigure
对象
后
面的
文本
、
、
我正在使用python pdfminer库(参见docs)从pdf文件中
提取
文本
。 然而,pdfminer似乎无法
提取
某些文件中的所有
文本
,而是
提取
LTFigure
对象
。假设从这个
对象
的位置,它“覆盖”了一些
文本
,因此这个
文本
没有被
提取
出来。pdf文件和包含从pdf
提取
信息的代码的简短jupyter笔记本都在我专门创建的Github存储库中,目的是提出这个问题: https:
浏览 149
提问于2021-01-28
得票数 0
回答已采纳
1
回答
pdfminer.six -使用`extract_pages` API
提取
图形/图像
、
Python库pdfminer.six允许您使用command line tool从pdf中
提取
图像,但这似乎不是很灵活。它还允许您使用extract_pages API迭代文档中的元素,并检查项目是否为pdfminer.layout.
LTFigure
类型。例如: from pdfminer.high_level import extract_pages figures.append(element
浏览 92
提问于2021-08-31
得票数 0
2
回答
通过python计算pdf文档中的图像
、
、
有没有办法通过python计算pdf文档中的图像数量(JPEG、PNG、JPG)?
浏览 7
提问于2017-11-02
得票数 0
0
回答
Python pdfminer
提取
图像每页生成多个图像(应该是单个图像)
、
我正在尝试
提取
PDF格式的图像。我正在处理的文件是2+ pages。第1页是
文本
,第2-n页是图像(每页一个,或者它可能是跨越多个页
面的
单个图像;我无法控制原点)。我可以从页面1中解析出
文本
,但当我尝试获取图像时,每个图像页面会得到3个图像。我无法确定图像类型,这使得保存它变得困难。: save_image(thing) if isinstance(thing,
LTFigure
浏览 0
提问于2016-07-12
得票数 5
1
回答
如何在从PDF中
提取
文本
时删除标题?
、
、
我可以使用pdfminer从pdf中
提取
数据。from pdfminer import .layout import LAParamsfrom pdfminer.layout
浏览 15
提问于2019-11-27
得票数 2
1
回答
在Windows 7上从MS Word/PPT 2010
提取
后
,嵌入式文件会损坏
、
当我
提取
一个嵌入到MS Word (docx) / PPT (pptx)文件(复制和粘贴桌面上嵌入的文件
对象
)中的
对象
的文件时,所
提取
的文件将被破坏。
文本
文件(原件)
文本
文件(从PPT (作为
对象
嵌入的
文本
文件)复制和粘贴
后
)
浏览 1
提问于2014-01-07
得票数 0
1
回答
(DOORS/DXL)用于使用制表符拆分某些属性中的
对象
文字的脚本
我已经在前
面的
问题中搜索过了,但我不知道我该怎么做。 我必须开发一个脚本,分析同一正式模块中的所有
对象
,从每个“
对象
文本
”中
提取
由制表符分隔的不同字符串,以编写同一
对象
的其他不同属性。以这种方式,普通
文本
格式被定义为“
对象
文本
”,且每个标题样式都与给定级标题相关联。以这种方式,为每个
对象
提供
对象
标题或
对象
文本
(但不是同时提供两者)。带有
对象
标题的
浏览 1
提问于2012-11-06
得票数 2
回答已采纳
1
回答
将多个文件从文件夹移到目录列表(撤消移动命令)
、
、
、
、
我有一个
文本
文件,其中包含每个文件的文件路径,指示它们最初所在的目录,因此需要移回。
浏览 1
提问于2017-07-14
得票数 0
1
回答
php:模拟mysql结果集
我想从目录中的
文本
文件中
提取
值,并将这些值列表放入数组中。$text_array = file($filepath);第三,我如何使它成为一个函数来容纳新创建的
文本
文件?
浏览 1
提问于2009-11-02
得票数 0
回答已采纳
1
回答
通过iPhone应用程序以字符串形式读取PDF文件
、
、
我想从PDF文件中
提取
文本
和图像。
浏览 3
提问于2010-09-16
得票数 0
1
回答
如何将QString转换为QDomElement?
、
、
我已经通过element.text()方法将QDomElement
对象
转换为QString,并以
文本
格式存储在mysql数据库中。我在从数据库中
提取
它时遇到了一个问题,因为从数据库中
提取
后
,它的格式为QString,所以我需要再次将其转换为QDomElement,以便进一步实现该
对象
的smth。我该怎么做呢?
浏览 5
提问于2013-09-14
得票数 0
1
回答
从HTML文件顶部刮取“字典”类型
对象
(一堆
文本
,而不是在类中)
、
、
、
、
考虑一下这个源代码:视图-源:假设我有这个页
面的
“汤”
对象
。我将如何在顶部
提取
文本
并将其转换为python字典,以便从中
提取
特定的数据?
浏览 1
提问于2015-04-04
得票数 2
回答已采纳
1
回答
使用pdftotext
后
:从txt中查找字符串页面
、
我目前正在用python编码,并设法使用pdftotext从pdf中
提取
文本
。但是,在找到单词的位置
后
,我希望能够参考最初的pdf。
浏览 0
提问于2016-07-21
得票数 1
3
回答
PdfBox
文本
提取
不能正常工作
、
、
PDFTextStripper();String text = stripper.getText(document);问题pdf: 我怎样才能从这个pdf文件中
提取
正确的
文本
?
浏览 4
提问于2013-11-19
得票数 1
1
回答
使用pdfminer从一个文件夹中转换多个PDF文件时,根据其坐标
提取
文本
、
、
、
、
我想要
提取
基于它的坐标从一个文件夹转换多个pdfminer文件的
文本
,并将我的结果存储到列表或字典中。我最初成功地转换了单个文件,并且能够根据它的坐标
提取
文本
。[[obj.bbox[0],obj.bbox[1]], obj.get_text()]]) returnString.close() 该代码输出给定文件夹中PDF的名称,后跟PDF
浏览 1
提问于2018-05-25
得票数 2
2
回答
Selenium不能
提取
文本
、
、
、
我正试着从这一页中
提取
一些
文本
。特别是,我想
提取
标签之间的
文本
。我使用Selenium和下
面的
代码,但是即使识别了
对象
,
文本
也是一个空字符串。
浏览 13
提问于2022-04-14
得票数 1
回答已采纳
3
回答
如何从字符串中
提取
多个json
对象
并在javascript中保留其他
文本
我想从一个
文本
字符串中
提取
多个json
对象
,同时保留json两端的
文本
。这样做的用例是格式化一个日志文件,该文件包含散布着json
对象
的
文本
语句。,"ModelState": 我通过查找{和}取得了一些进展,通过索引,我能够
提取
并切分字符串,直到我有了json
对象
和其他
文本
问题是一个json
浏览 0
提问于2019-04-11
得票数 0
1
回答
图像处理:识别图像中相同
对象
的多个实例
、
、
、
、
您可以看到下
面的
示例图像:我需要找到图像中存在的产品。结果图像示例如下所示:OpenCV工具如SURF、SIFT、ORB只检测图像中
对象
的一次出现。
浏览 3
提问于2017-01-13
得票数 1
1
回答
使用Auto将我的Python代码转换为.EXE时出错
、
、
、
在将Python代码转换为可执行文件
后
,在尝试运行程序时会出现以下致命错误:2.错误:"NoneType“
对象
没有属性”写“ 有什么建议吗?
浏览 1
提问于2021-03-08
得票数 2
1
回答
与Ruby中的类
对象
交互
为了提供一些上下文,我正在解析一个可能有几百个条目的
文本
文件,如下所示: 上载状态:导入class Product @upload_state = upload_state @upload_st
浏览 1
提问于2010-04-21
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用Python实现一款永久免费的PDF编辑工具
Excel乱序中提取信息的简便招法
Python爬虫之正则表达式中的一些提取方法
Scrapy框架的使用之Selector的用法
利用 Vue 实现评论板块:发表情,@某人消息推送
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券