腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Python
3
从
PDF
解析
中
提取
标题
和
子标题
、
、
、
我正在尝试将
pdf
解析
为html,然后我想从标签中
提取
标题
和
副
标题
。
pdf
文档是由Microsoft word生成的,所以我很确定肯定有一种方法可以获得这些
标题
。到目前为止,我已经尝试过
使用
Apache Tika
和
PDFMiner.six进行
解析
,但是到目前为止,我得到的html还没有这样的标签,我可以用它们来
提取
文档的
标题
和
副
标题</e
浏览 282
提问于2019-09-25
得票数 2
回答已采纳
2
回答
是否有Visual库允许您在
PDF
中
读取缩进?
、
、
我正在编写一个程序,试图
解析
PDF
文件
中
的数据。问题是,我们需要
解析
PDF
中
的某个部分,该部分被格式化为三层结构:
标题
、
子标题
、段落。到目前为止,我们正在
使用
换行(\n)来尝试
解析
数据,但这在很大程度上是效率低下的。即使我们有
标题
和
副
标题
的所有可能值,解决方案仍然不是理想的,因为新的
PDF
可能用新的
标题
和
<em
浏览 0
提问于2014-11-19
得票数 2
1
回答
解析
HTML文件,并将
标题
<h1>
和
副
标题
<h2>以及它们下面包含的文本存储在其他文件目录
中
(
Python
)
、
、
、
、
我实际上将我的.docx文档转换为超文本标记语言,因为我希望所有的
标题
和
副
标题
都存储在单独的文件
中
,因为稍后我想要重现相同的文件(但删除一些内容),所以我的想法是,我将
解析
一次超文本标记语言,并存储它的所有
标题
和
子标题
一次有没有人可以指导我
使用
哪个库,或者有没有一种我可能不知道的更简单、更聪明的方法?请给我引路。
浏览 4
提问于2020-05-28
得票数 0
1
回答
如何
使用
python
-camelot获取表格坐标?
、
、
我试图
解析
一些
pdf
文件,以便
提取
一些关键的information.There是在每个
pdf
中
包含这些信息的一部分的表的数量。因此,我尝试
使用
camelot来
提取
表,并获得了很好的结果,但我希望
提取
每个表的
标题
,因为我希望为每个表与其
标题
进行映射。因此,我尝试
使用
tables[i]._bbox获取每个表的坐标,然后向这些坐标添加一些边距,以检测表
标题
的区域(它可以在表的顶部、左侧或
浏览 83
提问于2019-09-19
得票数 3
回答已采纳
2
回答
Python
正则表达式负查找行为
、
、
我试图
解析
一个包含
标题
和
子标题
列表的文档,后面跟着文本体。该文件如下所示:
标题
二:
标题
二
中
的一些文本。
标题
2
中
有更多的文本行。
标题
2
中
的
子标题
:
子标题
2
中
的一些文本。 我试图
提取
所有头(但不是子头)的列表。正如您从上面的例子
中
浏览 2
提问于2016-04-23
得票数 1
3
回答
如何在保持文本结构(
标题
/字幕/正文)的同时进行
PDF
文本
提取
的OCR
、
、
、
、
我一直在不停地寻找一个工具,它可以在维护结构的同时
从
PDF
中
提取
文本。Body2 我想要一个工具,可以输出一个
标题
,字幕
和
身体的列表。
从
HTML/
PDF
/Docx进行简单
解析
的问题是,这些文本没有标准,因此我们经常会遇到在几个标记
中
划分的句子(在HTML的情况下),并且很难
解析
。到目前为止,我在
使用
Tesseract的
和
使用
OpenCV的中都
浏览 0
提问于2018-07-09
得票数 6
1
回答
如何用
Python
提取
PDF
的
标题
、作者、创建日期
、
、
、
我在本地管理文件,并以"creationdate_authors_title.
pdf
“的形式重命名每个
PDF
文件。因此,需要从
PDF
文件
中
自动
提取
每篇论文的
标题
、作者、创建日期。我编写了一个
python
脚本,
使用
pdfminer包
提取
信息。但是,对于某些文件,
解析
它们之后,通过
使用
doc.info存储在字典PDFDocument
中
的文件信息可能不包含一些键,比如"
浏览 3
提问于2021-07-14
得票数 1
1
回答
使用
bash读取
pdf
内容
是否可以
使用
bash命令读取
pdf
的第一页(并执行一个琐碎的grep等)并相应地重命名文件?-a
浏览 2
提问于2014-07-08
得票数 1
回答已采纳
1
回答
Python
库
和
ebook/
pdf
文件管理
、
、
我有数不清的数字格式的书籍,更多的是
pdf
格式的,但也有很多是电子酒吧格式的。它们太多,很难在文件夹中排序,可能是两个文件夹的一部分,因此它们被保存在一个文件夹
中
,而在其他文件夹
中
只有一个指向文件的链接。我找了一个电子书阅读器软件,可以自己区分
和
附加任何书籍到一套,但我没有找到这么多。因此,我决定编写一个能够这样做的
Python
程序,然后打开文件的默认读取器。出于这些原因,我正在为任何能够读取
pdf
文件的
Python
库提供服务,并为epub文件提供另一个库。我指的是两个
浏览 10
提问于2022-10-21
得票数 -1
回答已采纳
3
回答
将
PDF
转换为.ipynb (
从
PDF
中
恢复木星笔记本)
、
、
我有一个
PDF
文件是
从
木星笔记本创建的,但是原始的.ipynb文件丢失了。有什么工具可以帮助将
PDF
转换成.ipynb吗?
浏览 2
提问于2020-06-24
得票数 0
3
回答
从
pdf
文件
中
获取数据
、
我有一张
pdf
文件
中
的表格。有x,y,z列。我只想要x列。有可能
使用
python
吗?如果是,怎么做? 然后我想要画x
和
y。我该怎么做(
使用
表
中
的数据)
浏览 23
提问于2022-04-14
得票数 -1
1
回答
使用
R或
Python
仅从
PDF
中
提取
项目符号
、
、
、
我有一个相当简单的文件(任务的政府战略),有
标题
,普通文本,然后是要点(这是他们希望实施的战略)。我可以
从
.
pdf
中
读取
和
提取
页面或
标题
,并将其转换为.txt,但我只希望将文本(整个段落)包含在项目符号
中
,这正是我感兴趣的。我认为有一些方法可以做到这一点,因为它们可能可以通过项目符号本身来识别。在R
和
/或
Python
中有没有足够简单的方法来做到这一点?我不熟悉其他编程语言或
解析
方法。编辑:
浏览 3
提问于2017-09-06
得票数 1
3
回答
帮助以编程方式将文本添加到现有
PDF
、
我需要写一个程序,显示一个第三方提供的
PDF
。在向用户显示文本数据之前,我需要在表单
中
插入文本数据。我确实可以选择将
PDF
转换为另一种格式,但它必须看起来完全像原始的
PDF
。
浏览 2
提问于2009-12-01
得票数 3
回答已采纳
1
回答
使用
python
从
pdfs中
提取
特定文本
、
、
我尝试过不同的
python
库来
从
pdfs中
提取
特定的文本,我必须从这个
pdf
中
提取
标题
下的文本,我必须将从例1开始的文本
提取
为菱形粗体。 下一个
pdf
包含不同格式的的数据。在这个
pdf
中
,我必须
从
历史
提取
数据到检查,然后
从
检查到调查与历史
和
调查作为一个excel文件
中
的列
和
相应的数据行。
python</
浏览 20
提问于2022-06-30
得票数 0
1
回答
Feedly是如何
解析
这个RSS源
中
的图片的?
、
、
、
、
我有一个提要,我想从:中
提取
到这些帖子的内容所以我想问,他们是怎么做到的?这个提要不包含帖子的图像,所以Feedly如何获得它们?
浏览 5
提问于2020-03-20
得票数 2
回答已采纳
1
回答
将cp1251
pdf
解析
为
python
中
的文本
、
、
、
有什么方法可以用俄文(cp1251)
从
pdf
文件中
提取
文本吗? 对于
解析
pdf
文件,我
使用
pdfminer包。
浏览 7
提问于2015-08-26
得票数 1
回答已采纳
1
回答
如何
使用
Adobe字符
解析
PDF
、
、
、
我一直试图
使用
几种工具来
解析
PDF
文档。例如用于
Python
的pdfminer,用于Node.js的pdfminer,但是它们都不能
解析
空间Adobe字符,我得到以下序列。(cid:411)(cid:579)(cid:556)(cid:851)(cid:411)(cid:579) 是否有一个工具可以
解析
这些字符?
浏览 4
提问于2020-07-24
得票数 2
回答已采纳
1
回答
从
文档中
提取
页眉
和
页脚(每页重复文本)
、
我正在
使用
各种
python
库
解析
pdf
文档,并可以将其转换为页面列表(字符串列表)。我想自动删除
标题
和
页脚,它们是在几乎每个页面上重复的子字符串(不是每个页面上都需要的)。我知道difflib.SequenceMatcher类
和
类似的工具,但这主要适用于对的字符串。但我想利用这一事实,即文档有很多页,而不仅仅是进行成对比较。我对高效的算法以及可能的
python
工具(如果有的话)都感兴趣。谢谢你的暗示。
浏览 4
提问于2020-11-22
得票数 1
1
回答
用不正确的结构OCR
从
PDF
中
提取
数据
、
、
、
、
我从这些pdfs中
提取
用于各种操作和存储的数据。第一步是
使用
Adobe的OCR。然后,我
使用
tika
解析
pdf
。在
Python
中
:parsedPDF = parser.from_file("the_file.
pdf
")... 001 6 0 6行由换行符分隔,在
pdf
上看到的一行被
解析
为整行(见下文
浏览 3
提问于2016-07-05
得票数 0
回答已采纳
1
回答
将word文件吞入内部系统
、
、
、
、
以前,我在Excel
中
创建了一个VBA脚本,用于查看文件路径列表,打开每个文档,查找起始范围
和
结束范围,并复制/粘贴之间的所有内容,然后转移到下一个文件
中
。这个过程是我们每天都要做的事情,所以我想知道创建一个专用的电子邮件地址(非常容易)的能力,但是拔出附件,最终将其抓取并将所需的信息摄取到一个SQL server表
中
? 诚挚的问候!
浏览 0
提问于2019-01-23
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券