腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
从头开始制作python
中
的
pdf
解析器
、
我希望从零开始制作
PDF
解析器,使用Python (或)任何导致调整现有库/算法
的
方法。
浏览 1
提问于2016-06-12
得票数 0
1
回答
如何
:打开C#,突出显示搜索结果,并将突出显示保存回
PDF
、
、
、
、
我使用
的
是itextsharp.dll。在高亮显示
pdf
中
的
文本
后,我想保存高亮显示
的
pdf
文件
,以便当重新打开
PDF
时,它仍然高亮显示。 有什么想法吗?
浏览 2
提问于2011-07-04
得票数 5
1
回答
从
PDF
中
提取
数据
、
、
、
、
我有一个系统,最终
从
html
文件
创建
PDF
文件
。它
的
工作原理与邮件
合并
非常相似。它从数据库
中
抓取数据,将数据
合并
到html文档
中
的
palceholders
中
,然后将html
文件
转换为
pdf
。当我对html
文件
进行单元测试时,我可以查看占位符
中
的
值。例如,如果我有一个John Smith,并且我想验证其名称是否为
浏览 0
提问于2018-10-17
得票数 0
1
回答
将OCRed
文本
合并
并从
pdf
文件
中导出
给定OCRed
文本
的
pdf
文件
和hocr格式
的
html
文件
,我们能否将OCRed
文本
合并
到
pdf
文件
中
,以便新
的
pdf
文件
可以搜索
文本
?例如,我有一个
pdf
扫描没有搜索
文本
,约5MB。我将其转换为djvu
文件
,然后将其拆分为单页tiff
文件
,然后使用pdfb
浏览 0
提问于2014-11-26
得票数 1
1
回答
使用bash读取
pdf
内容
我有几本电子书,它们并不总是以书名命名
的
。是否可以使用bash命令读取
pdf
的
第一页(并执行一个琐碎
的
grep等)并相应地重命名
文件
?-a
浏览 2
提问于2014-07-08
得票数 1
回答已采纳
2
回答
如何
使用python向任何给定
文件
添加数字签名
、
、
如何
使用python向任何给定
的
文件
添加数字签名并进行验证。即输入一个
文件
,输出一个数字签名
的
文件
,并给出一个带有密钥
的
数字签名
文件
来验证数字签名。
如何
使用python做到这一点?
浏览 8
提问于2017-03-03
得票数 4
1
回答
在google脚本中将正文内容添加到gmail附件
有没有办法将gmail邮件正文内容附加到同一邮件
中
也存在
的
附件
中
?例如:我有一些正文内容和9页
的
pdf
,所以最终
的
对象/blob可能有10页,正文是第一页,附件
中
剩下
的
9页。或者,当我在google drive上创建
文件
时,有没有办法添加正文内容?mimetype:
pdf
const folderId =
浏览 15
提问于2020-05-22
得票数 0
回答已采纳
1
回答
如何
计算锁定
pdf
中
的
特定字数
、
如何
计算锁定
的
pdf
文件
中
的
特定字数?我用谷歌搜索了很久,还是没有找到解决方案。
浏览 0
提问于2013-03-24
得票数 1
1
回答
将cp1251
pdf
解析为python
中
的
文本
、
、
、
有什么方法可以用俄文(cp1251)
从
pdf
文件
中
提取
文本
吗? 对于解析
pdf
文件
,我使用pdfminer包。我试图在pdfminer.converter.TextConverter类
的
参数中指定编码,但没有帮助。
浏览 7
提问于2015-08-26
得票数 1
回答已采纳
1
回答
如何
使用jTessBoxEditor提高
文本
识别的准确性?
、
、
、
、
我一直在尝试
从
扫描
的
pdf
文档中
提取
数据。我已经将
pdf
文件
转换为jpeg
文件
(我在下面附上了图像链接),裁剪具有不同字体
的
单词和数字,
合并
为tiff
文件
,并使用jTessBoxEditor训练字体生成新
的
语言,我使用该语言在Tesseract-OCR中
提取
文件
中
的
数据。但我无法
提取
准确
的
数据
浏览 21
提问于2020-08-31
得票数 1
1
回答
Python & Pandas:将多行
合并
为单个单元格
、
、
、
我正在编写一个
从
pdf
文件
中
提取
文本
的
脚本,并将其作为字符串插入到单个csv行
中
。使用pdfplumbr,我可以成功地
提取
文本
,并将每个页面的
文本
作为单独
的
行插入到csv
中
。但是,我正在努力弄清楚
如何
将这些行
合并
到一个单元格
中
。我正在尝试Pandas pd.concat函数来组合它们,但到目前为止还没有成功。下面是我
的<
浏览 61
提问于2021-11-10
得票数 1
回答已采纳
4
回答
使用apache camel解析
pdf
文件
、
、
、
如何
使用Apache Camel读取/解析
pdf
文件
。有任何特定
的
示例或代码片段来解析该
文件
吗?感谢你
的
帮助。 提前谢谢。
浏览 8
提问于2013-10-30
得票数 0
1
回答
我不知道为什么会发生这个错误,也不知道
如何
修复它们
、
我试图将
pdf
转换成音频
文件
,但是当我运行我
的
代码时,我会
从
gtts自由主义
中
得到一些错误。如果有更好
的
自由使用,听起来不像一个机器人,请让我知道错误是,我
的
代码是#Importing Google Text to Speech libraryimport PyPDF2 <
浏览 10
提问于2022-12-04
得票数 0
2
回答
如何
从
eBooks上读取ISBN
、
、
、
、
我正在创建一个数据库来存储我
的
eBook集合。
如何
访问此内容? 有没有什么源码或者DLL可以做到这一点呢?
浏览 2
提问于2009-01-02
得票数 3
回答已采纳
2
回答
有没有办法在使用Ghostscript将
PDF
转换为TIFF时忽略水印
、
、
我使用
的
是gs9.10,并使用以下命令行成功地将我
的
PDF
转换为TIFF: -dBATCH-sCompression=lzw -dFirstPage=1 -dLastPage=5 \ TEST.
PDF
但是,我不希望TIFF在
PDF
的
每一页上都有水印。在写入TIFF时,是否有忽略水印层
浏览 1
提问于2014-04-30
得票数 1
1
回答
如何
从
合并
的
pdf
文件
中
提取
文本
?
、
我写了一些代码来
合并
位于目录
中
的
一堆
pdf
文件
并
提取
文本
,但是,代码不起作用。object.for page in
pdf
_reader.pages:AttributeError: 'PdfFileMerger' object has
浏览 16
提问于2018-07-23
得票数 0
3
回答
用于读取
PDF
文件
的
Python
、
我发现很多帖子都提出了阅读
PDF
的
解决方案。我想一个字一个字地阅读
PDF
文件
,并对它做一些处理。人们推荐pdfMiner,它可以将整个
PDF
文件
转换成
文本
文件
。但我想要
的
是一个字一个字地读
PDF
。有没有人能推荐一个这样
的
图书馆呢?
浏览 2
提问于2011-05-10
得票数 11
回答已采纳
2
回答
iText在安卓系统上
的
文本
提取
/阅读
、
、
其他人说iText只用于创建
PDF
?而且它不能从
PDF
中
读取或
提取
文本
。这是真的吗?如果这是真的,那么我还可以选择哪些其他选项来
从
PDF
文件
中
提取
文本
并将其保存在变量
中
或显示在Android设备
中
? 如果iText能够
从
PDF
中
提取
文本
,那么
如何
提取
呢?
浏览 0
提问于2012-10-22
得票数 2
回答已采纳
1
回答
实现类错误并返回0
文本
、
首先,我尝试实现一个类,它返回一个类似于<主
的
代码。对象时,当我试图实现类时。我参考了其他意见,但不太明白。我
的
第二个问题是,当我运行下面的代码时,它声明在我之前保存
的
pdf
中
没有项目。我想我把
文件
传错了,但我不确定。我分别测试了每个代码,这两个代码都是独立工作
的
,而不是一起工作
的
。任何帮助都是非常感谢
的
。= PdfFileMerger() for item in os.listdir(source_di
浏览 6
提问于2020-09-21
得票数 2
回答已采纳
1
回答
在excel
中
创建宏所需
的
VBA代码,以便
从
pdf
中
提取
名称下
的
句子。
、
尝试
从
pdf
到excel中
提取
文本
行。 目前,我正在处理大量
pdf
文件
,其中包含了某些标头
的
标准化信息。每个
文件
都有相同
的
标题列表。我已经收集了一些代码,
从
每个标题下
的
pdf
文件
中
提取
每个句子,并将它们
合并
到一个excel电子表格
中
。这里
的
问题是,在
pdf
中
浏览 4
提问于2022-10-20
得票数 -1
点击加载更多
相关
资讯
如何用Python从PDF文件中提取文本词汇
如何提取PDF文件中的图片内容?
pdf合并,pdf文件如何合并
格式工厂中PDF文件如何合并?
如何调整PDF文件中的文本行距
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券