从PDF中提取文本并与字典进行比较

、、、、

我目前正在做一个项目，我想从PDF中提取文本，然后检查提取的文本中的某个单词是否出现在某个词典中。如果是这样，我想使用example.replace(example.replace，x，y)将文本中的单词替换为字典中的值。我正在为检查文本中的所有单词并自动将它们与字典进行比较的循环而苦苦挣扎。这样做的目的是我

浏览 18提问于2018-09-05得票数 1

回答已采纳

1回答

Acrobat在复制文本时如何破坏PDF文档中的单词？

、、、、

PDF文档不需要在页面内容流中显示空格字符，从而在视觉上打断单词。因此，在字体程序中也可能缺少空格字符的字形。与PDF兼容的查看器似乎使用字体度量和文本状态来推断适当的字间距宽度，并根据字符的位置检查它，以便在选择/复制文本时添加缺失的空格。不幸的是，PDF 似乎没有足够强调在这种情况下如何计算字间距。

浏览 8提问于2022-08-11得票数 0

1回答

如何从短语中提取名词和实词？

、

我想从给定的文本短语中提取名词、实词和形容词。有没有能做到这一点的java库(开源)？有人知道怎么做吗？基本上，我在考虑为这些类别(名词、实词、形容词)创建单独的字典，然后解析短语，在标记中分隔单词，并与这些字典进行比较，但有一些东西(lib)已经为我做了这件事，那就太好了。

浏览 24提问于2016-07-23得票数 0

3回答

使用regex从文本中提取特定字母并与字典进行比较

、、

我有一张90%格式AABBB-CCCDDD001.的文本列表在这个列表中，也没有几个文本可能包括AABBBIGW-CCCDDD001 or 如果代码ICS、IGW、RTL或TDZ与文本中的代码匹配，我希望它输出它们各自的编号，为此我创建了一个字典：AA

浏览 0提问于2018-07-12得票数 2

回答已采纳

1回答

如何从PDF中获取图像片段

、

我正在用可搜索的PDF文档做一个项目。任何人都可以为我指明任何资源或工具包的方向，使我能够做到这一点。罗杰·萨默塞特，英国

浏览 2提问于2010-09-01得票数 1

2回答

如何确定PDF是否被标记？

、

我如何知道PDF是否被标记？我正在开发一个程序，可以在PDF文件中复制一个文本并在我的应用程序中显示它，所以我尝试测试这个PDF文件，我从一个PDF文件(普通Copy+Paste)中复制了一个表，并将它粘贴到MS中。结果是没有表格的普通文本。当您从pdf文件中复制表并将其粘贴到Word中时，会出现一些问题，使其成为图像。这是真的吗？

浏览 6提问于2012-10-04得票数 2

回答已采纳

1回答

在PDF上使用包含文本的文档AI仍然包括文本错误

、

使用文档AI处理器从PDF (英语、德语、意大利语)中提取文本非常好，但有时OCR不匹配。特别是在“单词”不是字典中的单词，而是包含字母和数字的部分数字有问题的情况下(主要是O0L1-5S)。有没有办法告诉文档AI使用PDF中包含的文本(作为文本)。对于我的知识文档，AI使用PDF页面的图像来对内容进行ocr。是否有任何标志可自定义文档AI以使用文本版本或任何其

浏览 2提问于2021-07-05得票数 0

1回答

Pdf嵌入式字体被pdftop忽略

、、

我一直试图嵌入所有丢失的字体在pdf中，只是为了避免“惊喜”时，打印或渲染他们，因为字体替代。使用C#/iText，我将字体嵌入到pdf中。(BergamoStd-embedded.pdf)我可以正确地呈现嵌入的pdf，无论字体是否存在于系统中

浏览 3提问于2013-10-01得票数 0

回答已采纳

1回答

两种HTML的比较

、、、

我在2pdf比较工作，在那里我提取的第一个pdf，以获得的PDF格式的样式，.PDF样式被提取和转换为html。最后，我比较了两个HTML文本。 } r

浏览 1提问于2013-06-04得票数 2

2回答

有没有办法在PDF文件上测试图像？

、、、、

在我们的项目中，我们有测试PDF文件数据的要求。但PDF文件中的数据很少是图像格式的，因此我们不能将相同的逻辑应用于PDF上的文本比较。我们正面临着验证PDF文件上的图像文本的问题。有没有什么API可以让我们识别OCR，并从图像中提取文本并进行比较。

浏览 0提问于2016-05-31得票数 0

1回答

空手道:比较pdf响应文件

我有一个api，这是返回pdf文件作为响应。有没有办法比较空手道中的pdf文件？有没有办法获取Title参数并与另一个pdf进行比较？

浏览 4提问于2021-06-28得票数 1

2回答

NLP命名实体识别

、、、

我希望使用命名实体识别算法从文本中提取名称和位置，而不使用任何库。美国航空公司表示将开通一架直飞孟加拉的航班。这是否就像在CSV文件中存储所有的名称和位置，并与句子进行比较？

浏览 6提问于2020-03-21得票数 0

1回答

通过iPhone应用程序以字符串形式读取PDF文件

、、

我不明白我应该在CGPDFDictionaryGetString函数中为“key”传递什么参数?我想从PDF文件中提取文本和图像。

浏览 3提问于2010-09-16得票数 0

1回答

我最近建立了一个Linux服务器，可以使用Xpdf的一部分pdftotext命令将基于文本的Xpdf转换为文本，还可以使用gs (Ghostscript)和tesseract命令的组合将基于图像的Xpdf转换为文本。当我已经知道PDF是基于文本还是基于图像时，这两种解决方案都能很好地工作。但是，为了自动化将许多PDF转换为文本的过程，我需要能够判断PDF是基于文本的还是基于图像的，这样我就知道在PDF上运行哪一组进程

浏览 5提问于2016-09-23得票数 1

回答已采纳

2回答

如何在ios中从字典数组中获取对象

我有一个字典数组，其中有多个键和不同类型的对象。我只想获取其中一个对象，并与另一个对象进行比较。我一直在尝试for each循环，但不能这样做。

浏览 5提问于2014-09-04得票数 1

1回答

如何计算锁定pdf中的特定字数

、

如何计算锁定的pdf文件中的特定字数？我用谷歌搜索了很久，还是没有找到解决方案。

浏览 0提问于2013-03-24得票数 1

2回答

如何以编程方式比较两个基于视觉差异的PDF？

、、、、

我需要比较并获得两个PDF文件中的所有视觉差异。我知道在堆栈溢出上有一些与此相关的问题，但它们没有满足我的需求。不仅是文本，我还需要注意所有的视觉差异，如图像，图表中的文本等。请给我一些实现这一点的方法。PS:我试过使用Apache Tik

浏览 5提问于2014-01-23得票数 3

1回答

从文档中提取页眉和页脚(每页重复文本)

、

我正在使用各种python库解析pdf文档，并可以将其转换为页面列表(字符串列表)。我想自动删除标题和页脚，它们是在几乎每个页面上重复的子字符串(不是每个页面上都需要的)。但我想利用这一事实，即文档有很多页，而不仅仅是进行成对比较。我对高效的算法以及可能的python工具(如果有的话)都感兴趣。谢谢你的暗示。

浏览 4提问于2020-11-22得票数 1

1回答