腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
ghostscript
提取
包含
文本
字符串
的
页面
、
、
我需要以编程方式从一个多页
pdf
提取
,只包含一个
文本
字符串
的
页面
。有没有可能或者我需要一些其他
的
工具?我正在使用aix。 提前感谢
浏览 0
提问于2016-01-26
得票数 0
1
回答
从
PDF
格式
的
嵌套表中
提取
数据
、
、
、
我有几个
pdf
文件
是
从
word或excel
文件
中
创建
的
。我需要获取表
中
的
信息。文档
中
的
文本
不是图像,所以我能够使用pdfbox之类
的
工具
提取
文本
。当我有
文本
时,我无法知道它属于哪些单元格,因为我不知道表
的
边框在哪里。Iv‘e尝试了一些桌面工具,比如abby或solid
pdf
转换器,它们能够实
浏览 3
提问于2010-08-20
得票数 3
1
回答
Gtts库错误。我不知道为什么会发生这个错误,也不知道如何修复它们
、
我试图将
pdf
转换成音频
文件
,但是当我运行我
的
代码时,我会
从
gtts自由主义
中
得到一些错误。如果有更好
的
自由使用,听起来不像一个机器人,请让我知道错误是,我
的
代码是#Importing Google Text to Speech libraryimport PyPDF2 <
浏览 10
提问于2022-12-04
得票数 0
3
回答
如何使用Apache Tika获取
PDF
中元素
的
样式信息?
、
、
我正在使用Apache Tika
从
PDF
文件
中
提取
文本
。我想知道如何使用Apache Tika获取样式信息,如字体大小、
文本
颜色、特定
文本
(几个单词)是否为斜体、粗体等?有没有可能获得这种类型
的
信息? 另外,我想知道是否可以使用Apache Tika获取表格信息?表
的
开始、第一行
的
开始、第一个单元格等信息。
浏览 95
提问于2013-10-07
得票数 4
回答已采纳
2
回答
在
PDF
中
链接
文本
的
编程方法
、
、
、
我正在寻找一些方法来编码一个函数(我在这一点上对任何语言或库开放),以现有的
PDF
文件
作为输入,并返回一个修改后
的
PDF
文件
,将某些单词链接到不同
的
URL。我知道PHP和ColdFusion都有很好
的
工具来处理
PDF
,但是我还没能找到任何有效
的
工具。 我一直在通过Acrobat并手动链接
文本
来做到这一点,我想知道是否有任何方法可以自动执行这一过程。
浏览 0
提问于2010-01-10
得票数 2
回答已采纳
2
回答
如何在一个庞大
的
PDF
中
删除
页面
顶部不包含特定单词
的
页面
?希望在C#
、
所以我有这个2300+
pdf
PDF
,我需要处理。第一步必须删除我不需要
的
页面
。例如,1到24页不包含我需要
的
任何信息,然后25到28页我确实需要,29到54页我不需要,等等。每一页我需要
的
页数和我不需要
的
页数随每一节而不同。但我需要保留
的
每一页上都有"5天M.A.R.“在
页面
的顶部,所以任何不包含该内容
的
页面
都需要删除。理想情况下,如果有一种方法可以创建一个C# (或类似的)应用程序,
浏览 6
提问于2014-11-11
得票数 0
1
回答
从
PDF
文件
中
所需
的
页面
中
提取
文本
、
我正在尝试使用Form Recognizer - Azure认知服务
从
pdf
文件
中
提取
文本
。我正在使用自定义模型,我用我
的
模型训练这个服务,然后尝试
提取
数据。那么,有没有办法训练我
的
系统通过给定页码来
从
选定
的</
浏览 17
提问于2019-10-22
得票数 0
回答已采纳
2
回答
如何使用PDFTable或PDFTableExtractor类
从
java
中
的
PDF
文件
中
读取值?
、
、
、
、
我尝试使用PDFTextStripperByArea和PDPageContentStream类
从
我
的
pdf
文件
中
提取
数字值。他们工作得很好!但我
的
要求是使用PDFTableExtractor类或PDFTable来读取
pdf
内容。您能告诉我访问上述类
所需
的
、maven依赖项、和jar
文件
是什么吗?还提到
从
特定位置获取值
所需
的
方法。我们可以
从
浏览 4
提问于2018-01-23
得票数 0
回答已采纳
3
回答
免费
的
开源Java库来转换
PDF
-Image,
PDF
,
PDF
-
提取
图像和
文本
、
、
我需要Java库来执行以下任务: 1)将
Pdf
页面
转换为图像2)
从
PDF
页面
中
提取
html
文本
,并在
页面
上有位置)
从
PDF
页面
中
提取
图像 BFO -它
的
付费库,但能够
浏览 6
提问于2012-10-30
得票数 3
回答已采纳
4
回答
如何在lucene
中
索引
pdf
,ppt,xl
文件
(基于java或者python或者php都可以)?
、
、
我还想知道如何在索引时添加元数据,以便提高一些参数
浏览 1
提问于2010-04-06
得票数 4
回答已采纳
1
回答
文档理解是
从
UiPath中所有
pdf
页面
中
提取
数据。
、
、
、
、
我正在使用文档理解UiPath
从
多个
pdf
文件
中
提取
数据。每个
pdf
文件
包含同一页
的
多份副本,我无法删除。
的
问题是:2.) --它也是
提取
它下面的其他无关数据--以及
所需
的</e
浏览 7
提问于2022-03-08
得票数 1
1
回答
从
PDF
文件
获取
文本
属性
、
如何使用或获取
文本
属性?我需要字体大小和样式信息。$
pdf
->getPageContent(1); 但里面有文字信息。
浏览 0
提问于2014-08-12
得票数 0
2
回答
perl
中
的
pdf
解析
、
、
我试图
从
pdf
中
提取
一些信息。我正在尝试使用来自getpdftext.pl模块
的
CAM::
PDF
。当我只运行$~ getpdftext.pl sample.
pdf
时,它会生成一个
pdf
文本
到stdout。 但我正在考虑将其写入
文本
文件
,并解析perl中
所需
的
字段。有人能指点我怎么做吗?但是,当我试图在perl脚本
中
调用pdftotext.pl时,我会得到一个No
浏览 3
提问于2011-10-06
得票数 4
1
回答
从
UTF-8格式
pdf
文件
中
读取并以cp1252格式写入写入器。
、
、
、
、
我正在尝试使用
文件
流从一个
pdf
文件
中
读取,我想用cp1252编码格式将它写给一个作者。oos.toString(out,"UTF-8");writer.write(ch);oos.close(); 但是输出是错误
的
,因为
文本
是不可读
的
(没有正确转换)。
浏览 3
提问于2016-03-21
得票数 0
5
回答
使用python
从
MS word docx
文件
中
逐页
提取
文本
、
、
、
、
我有一个MS
文件
,我需要从其中
提取
文本
分页。我尝试过python,但它可以
提取
整个
文本
,但不能
提取
页面
。我还将docx转换为
pdf
,然后尝试
文本
提取
。问题是,在转换之后,docx
的
页面
结构发生了变化。例如,在转换时,字体大小被更改,而docx
的
一页
中
的
文本
内容在
pdf
中
占用了
浏览 9
提问于2019-12-18
得票数 4
回答已采纳
1
回答
如何:打开C#,突出显示搜索结果,并将突出显示保存回
PDF
、
、
、
、
我使用
的
是itextsharp.dll。在高亮显示
pdf
中
的
文本
后,我想保存高亮显示
的
pdf
文件
,以便当重新打开
PDF
时,它仍然高亮显示。 有什么想法吗?
浏览 2
提问于2011-07-04
得票数 5
11
回答
如何在Python 3.7
中
从
pdf
中
提取
文本
、
、
、
、
我正在尝试使用Python
从
PDF
文件
中
提取
文本
。我
的
主要目标是试图创建一个程序,读取银行对账单,并
提取
其
文本
,以更新excel
文件
,以方便地记录每月
的
支出。现在我只专注于
从
pdf
文件
中
提取
文本
,但我不知道如何做到这一点。 当前将
PDF
文件
中
的
文本<
浏览 203
提问于2019-04-20
得票数 19
回答已采纳
2
回答
可搜索
PDF
文件
(Image+Text
PDF
)验证
、
我正在检查一个
PDF
文档是否是可搜索
的
,如果我能从
PDF
中
的
每一页
中
得到任何
文本
。 但是,当我试图
从
包含500~2000页
的
PDF
中
提取
文本
时,检查每一页似乎要花费很长时间。
PDF
是否可能包含一个
页面
的
文本
,而不包含在其他
页面
中
?我在这里要做
的
是,如果
PDF
浏览 1
提问于2009-05-06
得票数 2
3
回答
从
pdf
文件
中
提取
矢量图像
、
、
、
linux上是否有命令行工具可以
从
pdf
文件
中
提取
图形,并将其保存为矢量格式?我知道pdfimage,但这会创建一个位图,而这不是我
所需
要
的
。
浏览 9
提问于2012-03-28
得票数 16
2
回答
在c#
中
读取部分
PDF
文件
、
、
我有许多大
的
PDF
文件
,我只需要阅读其中
的
一部分。我希望开始读取
PDF
文件
,并将其写入另一个
文件
,如txt
文件
或任何其他类型
的
文件
。但是,我想对我正在写入
的
文件
的
大小进行限制。当txt
文件
的
大小约为15 MB时,我应该停止读取
PDF
文档,然后保留创建
的
txt
文件
。有人能帮我吗
浏览 2
提问于2016-02-09
得票数 1
回答已采纳
点击加载更多
相关
资讯
pdf文件中的图片怎么提取?教你快速提取PDF中的图片
如何用Python从PDF文件中提取文本词汇
如何提取PDF文件中的图片内容?
如何调整PDF文件中的文本行距
如何提取pdf文件中的图片?简单的提取方法分享给你!
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券