腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
从
PDF
中
提取
文本
并与
字典
进行
比较
、
、
、
、
我目前正在做一个项目,我想从
PDF
中
提取
文本
,然后检查
提取
的
文本
中
的某个单词是否出现在某个词典
中
。如果是这样,我想使用example.replace(example.replace,x,y)将
文本
中
的单词替换为
字典
中
的值。 我正在为检查
文本
中
的所有单词并自动将它们与
字典
进行
比较
的循环而苦苦挣扎。这样做的目的是我
浏览 18
提问于2018-09-05
得票数 1
回答已采纳
1
回答
Acrobat在复制
文本
时如何破坏
PDF
文档
中
的单词?
、
、
、
、
PDF
文档不需要在页面内容流
中
显示空格字符,从而在视觉上打断单词。因此,在字体程序
中
也可能缺少空格字符的字形。与
PDF
兼容的查看器似乎使用字体度量和
文本
状态来推断适当的字间距宽度,并根据字符的位置检查它,以便在选择/复制
文本
时添加缺失的空格。不幸的是,
PDF
似乎没有足够强调在这种情况下如何计算字间距。
浏览 8
提问于2022-08-11
得票数 0
1
回答
如何
从
短语中
提取
名词和实词?
、
我想从给定的
文本
短语中
提取
名词、实词和形容词。有没有能做到这一点的java库(开源)?有人知道怎么做吗?基本上,我在考虑为这些类别(名词、实词、形容词)创建单独的
字典
,然后解析短语,在标记中分隔单词,
并与
这些
字典
进行
比较
,但有一些东西(lib)已经为我做了这件事,那就太好了。
浏览 24
提问于2016-07-23
得票数 0
3
回答
使用regex
从
文本
中
提取
特定字母
并与
字典
进行
比较
、
、
我有一张90%格式AABBB-CCCDDD001.的
文本
列表在这个列表
中
,也没有几个
文本
可能包括AABBBIGW-CCCDDD001 or 如果代码ICS、IGW、RTL或TDZ与
文本
中
的代码匹配,我希望它输出它们各自的编号,为此我创建了一个
字典
:AA
浏览 0
提问于2018-07-12
得票数 2
回答已采纳
1
回答
如何
从
PDF
中
获取图像片段
、
我正在用可搜索的
PDF
文档做一个项目。任何人都可以为我指明任何资源或工具包的方向,使我能够做到这一点。 罗杰·萨默塞特,英国
浏览 2
提问于2010-09-01
得票数 1
2
回答
如何确定
PDF
是否被标记?
、
我如何知道
PDF
是否被标记?我正在开发一个程序,可以在
PDF
文件
中
复制一个
文本
并在我的应用程序
中
显示它,所以我尝试测试这个
PDF
文件,我从一个
PDF
文件(普通Copy+Paste)
中
复制了一个表,并将它粘贴到MS
中
。结果是没有表格的普通
文本
。当您
从
pdf
文件
中
复制表并将其粘贴到Word
中
时,会出现一些问题,使其成为图像。这是真的吗?
浏览 6
提问于2012-10-04
得票数 2
回答已采纳
1
回答
在
PDF
上使用包含
文本
的文档AI仍然包括
文本
错误
、
使用文档AI处理器
从
PDF
(英语、德语、意大利语)中
提取
文本
非常好,但有时OCR不匹配。特别是在“单词”不是
字典
中
的单词,而是包含字母和数字的部分数字有问题的情况下(主要是O0L1-5S)。有没有办法告诉文档AI使用
PDF
中
包含的
文本
(作为
文本
)。对于我的知识文档,AI使用
PDF
页面的图像来对内容
进行
ocr。 是否有任何标志可自定义文档AI以使用
文本
版本或任何其
浏览 2
提问于2021-07-05
得票数 0
1
回答
Pdf
嵌入式字体被pdftop忽略
、
、
我一直试图嵌入所有丢失的字体在
pdf
中
,只是为了避免“惊喜”时,打印或渲染他们,因为字体替代。使用C#/iText,我将字体嵌入到
pdf
中
。(BergamoStd-embedded.
pdf
)我可以正确地呈现嵌入的
pdf
,无论字体是否存在于系统
中
浏览 3
提问于2013-10-01
得票数 0
回答已采纳
1
回答
两种HTML的
比较
、
、
、
我在2
pdf
比较
工作,在那里我
提取
的第一个
pdf
,以获得的
PDF
格式的样式,.
PDF
样式被
提取
和转换为html。最后,我
比较
了两个HTML
文本
。 } r
浏览 1
提问于2013-06-04
得票数 2
2
回答
有没有办法在
PDF
文件上测试图像?
、
、
、
、
在我们的项目中,我们有测试
PDF
文件数据的要求。但
PDF
文件
中
的数据很少是图像格式的,因此我们不能将相同的逻辑应用于
PDF
上的
文本
比较
。我们正面临着验证
PDF
文件上的图像
文本
的问题。有没有什么API可以让我们识别OCR,并从图像中
提取
文本
并
进行
比较
。
浏览 0
提问于2016-05-31
得票数 0
1
回答
空手道:
比较
pdf
响应文件
我有一个api,这是返回
pdf
文件作为响应。有没有办法
比较
空手道
中
的
pdf
文件? 有没有办法获取Title参数
并与
另一个
pdf
进行
比较
?
浏览 4
提问于2021-06-28
得票数 1
2
回答
NLP命名实体识别
、
、
、
我希望使用命名实体识别算法
从
文本
中
提取
名称和位置,而不使用任何库。美国航空公司表示将开通一架直飞孟加拉的航班。这是否就像在CSV文件
中
存储所有的名称和位置,
并与
句子
进行
比较
?
浏览 6
提问于2020-03-21
得票数 0
1
回答
通过iPhone应用程序以字符串形式读取
PDF
文件
、
、
我不明白我应该在CGPDFDictionaryGetString函数
中
为“key”传递什么参数?我想从
PDF
文件中
提取
文本
和图像。
浏览 3
提问于2010-09-16
得票数 0
1
回答
如何区分PHP
中
的“
文本
”
PDF
和“图像”
PDF
?
、
、
、
、
我最近建立了一个Linux服务器,可以使用Xpdf的一部分pdftotext命令将基于
文本
的Xpdf转换为
文本
,还可以使用gs (Ghostscript)和tesseract命令的组合将基于图像的Xpdf转换为
文本
。当我已经知道
PDF
是基于
文本
还是基于图像时,这两种解决方案都能很好地工作。但是,为了自动化将许多
PDF
转换为
文本
的过程,我需要能够判断
PDF
是基于
文本
的还是基于图像的,这样我就知道在
PDF
上运行哪一组进程
浏览 5
提问于2016-09-23
得票数 1
回答已采纳
2
回答
如何在ios
中
从
字典
数组
中
获取对象
我有一个
字典
数组,其中有多个键和不同类型的对象。我只想获取其中一个对象,
并与
另一个对象
进行
比较
。我一直在尝试for each循环,但不能这样做。
浏览 5
提问于2014-09-04
得票数 1
1
回答
如何计算锁定
pdf
中
的特定字数
、
如何计算锁定的
pdf
文件
中
的特定字数?我用谷歌搜索了很久,还是没有找到解决方案。
浏览 0
提问于2013-03-24
得票数 1
2
回答
如何以编程方式
比较
两个基于视觉差异的
PDF
?
、
、
、
、
我需要
比较
并获得两个
PDF
文件
中
的所有视觉差异。我知道在堆栈溢出上有一些与此相关的问题,但它们没有满足我的需求。不仅是
文本
,我还需要注意所有的视觉差异,如图像,图表
中
的
文本
等。 请给我一些实现这一点的方法。PS:我试过使用Apache Tik
浏览 5
提问于2014-01-23
得票数 3
1
回答
从
文档中
提取
页眉和页脚(每页重复
文本
)
、
我正在使用各种python库解析
pdf
文档,并可以将其转换为页面列表(字符串列表)。我想自动删除标题和页脚,它们是在几乎每个页面上重复的子字符串(不是每个页面上都需要的)。但我想利用这一事实,即文档有很多页,而不仅仅是
进行
成对
比较
。 我对高效的算法以及可能的python工具(如果有的话)都感兴趣。谢谢你的暗示。
浏览 4
提问于2020-11-22
得票数 1
1
回答
比较
两个
pdf
,将突出显示的差异返回到相同的
pdf
中
。
、
、
、
我能够
从
鬼脚本中
提取
文本
,并能一次
比较
文本
的短语。然而,问题是幽灵脚本以一种奇怪的方式输出
文本
。我希望通过元素(表、
文本
、图像)来
比较
元素,.I正在寻找一个自动化的解决方案来实现这一点。我最大的挑战是迭代元素,并将它们与两个
PDF
中
的元素
进行
比较
。 有人能帮忙吗?
浏览 2
提问于2016-02-04
得票数 1
2
回答
如何在itextSharp
中
检测表启动?
、
、
、
、
我正在尝试将
pdf
转换为csv文件。
pdf
文件具有表格格式的数据,第一行为标题。我已经可以
从
单元格中
提取
文本
,
比较
表格中
文本
的基线,并检测换行符,但我需要
比较
表格边框来检测表格的开始。我不知道如何检测和
比较
PDF
中
的线条。有谁可以帮我? 谢谢!
浏览 2
提问于2013-04-02
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何用Python从PDF文件中提取文本词汇
怎么从pdf里提取图片?怎么用pdf转换器提取pdf中图片?
怎么从pdf中提取图片?pdf格式文档中图片怎么提取出来?
OCR识别软件有哪些?哪款最好用?
手把手教你如何用 Python从PDF 文件中导出数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券