有没有办法在使用Python解析PDF文件时识别划掉的单词？

文章/答案/技术大牛

发布

1回答

python、parsing、pdf、pymupdf

我正在使用PyMuPDF解析PDF文件(顺便说一下，这是一个很棒的库！) 但是我需要识别那些被划掉的单词。 有没有办法做到这一点？

浏览 27提问于2020-08-26得票数 0

1回答

非PDF格式文件中可填入PDF表格的正面识别

parsing、pdf

我正在寻找一种编程方法，以积极识别非PDF表单文件中的可填充PDF表单。我认为可供选择的办法如下：用支持十六进制的语言(如Python )解析文件以进行签名标识。使用具有十六进制能力的语言(如Python )解析文件，以标记告示符号。

浏览 5提问于2013-07-23得票数 0

3回答

读取Python语言中的.docx文件以查找删除线、项目符号和其他格式

python、pandoc、python-docx

谁能帮我在Python中使用python-docx识别.docx文件中的段落是否包含格式化为删除线(即，它出现，但被划掉了)，或者在开头有一个项目符号？我正在尝试编写一个脚本来识别文档中的结构并解析内容。 for run in p.

浏览 3提问于2017-10-09得票数 2

1回答

使用CAM::PDF解析.pdf文件时出现正则表达式问题

perl、pdf

不匹配的[在正则表达式中；在m/ <-- HERE /at./pdf_parse.pl第37行用<-- HERE标记。实际上，我正在逐个单词地解析.pdf文件，以便从中生成字典第37行：} 解析器脚本停止工作的实际单词在我正在解析的</

浏览 4提问于2011-05-19得票数 0

回答已采纳

1回答

pocketsphinx batch vs continuous

cmusphinx、pocketsphinx

用pocketsphinx、continuous和batch对.wav格式的音频文件进行解码时，结果差异非常显着。我想问: 1.为什么pocketsphinx batch通常比pocketsphinx给出好的结果? 2.有没有关于pocketsphinx batch和continuous工作的确切解释?3.当使用pocketsphinx解码时cmninit值不正确，因此，我认为循环wav音频文件，结果相当好。有没有办法</em

浏览 2提问于2018-06-19得票数 0

1回答

Perl CAM::PDF拆分单词不正确

perl、pdf

我正在使用CAM::PDF Perl模块来解析PDF。这个模块运行得很好，除了一个问题，它似乎随机拆分单词。有没有办法通过设置或某种算法将单词重新组合在一起？“在纽约和都柏林设有办事处。”-Notice纽约代码部分如下： $text = $<em

浏览 1提问于2011-06-07得票数 0

回答已采纳

2回答

可以使用wordcloud生成基于矢量的pdf吗？

python、word-cloud

我在python中使用来生成单词云。我能够在我的机器上重现这个，然后尝试将最后一行plt.show()更改为plt.savefig('image.pdf')，以获得pdf输出。我有一个同样的结果的pdf，然而，pdf似乎是基于像素而不是基于矢量。当我在pdf中聚焦一个特定的点时，它会变成一

浏览 2提问于2015-07-10得票数 1

1回答

防止Sphinx中下载链接中的粗体文本读取文档

python、python-sphinx、read-the-docs

在使用Sphinx和RTD主题编写python库的过程中，我使用:download: Download Text <_download/the_file.pdf>角色链接了一些供下载的PDF文件，但由于某些原因，导致了如下所示的链接：第一个词是正常的，但下面的所有单词都是粗体。有没有办法阻止下载链接文本中

浏览 0提问于2017-03-21得票数 1

回答已采纳

3回答

用于读取PDF文件的Python

python、pdf

我发现很多帖子都提出了阅读PDF的解决方案。我想一个字一个字地阅读PDF文件，并对它做一些处理。人们推荐pdfMiner，它可以将整个PDF文件转换成文本文件。但我想要的是一个字一个字地读PDF。有没有人能推荐一个这样的图书馆呢？

浏览 2提问于2011-05-10得票数 11

回答已采纳

1回答

PyPDF2在用pdf格式读取时正在创建非字母数字字符。

python、pdf

我正在使用包读取一个PDF文件。但是，当它读取PDF文件时，会出现许多非字母数字字符，这些字符在原始PDF文件中不存在。例如，我在pdf中有行；“这一年实际上比预期的更令人困惑，但这也让我越来越相信大量的案例都是错误的。”。我知道以后我可以使用正则表达式来去除这些特殊字符，但我一

浏览 0提问于2018-05-14得票数 0

回答已采纳

3回答

将PDF转换为.ipynb (从PDF中恢复木星笔记本)

python、pdf、jupyter-notebook

我有一个PDF文件是从木星笔记本创建的，但是原始的.ipynb文件丢失了。有什么工具可以帮助将PDF转换成.ipynb吗？

浏览 2提问于2020-06-24得票数 0

1回答

使用Python解析PDF文件

javascript、python、pdf、pdf.js

(1)有没有办法在pdf文件中搜索文本，并使用Python转到pdf文件中的那个位置？(2)有没有办法突出显示pdf文件中的文本，然后使用Python提取该文本？我试过使用Javascript，它实际上是有效的，但我想尝试pdf.js。任何

浏览 7提问于2018-08-09得票数 0

回答已采纳

2回答

如何编辑可搜索PDF的搜索文本？

pdf、acrobat

我可以访问我的图书馆的扫描仪，它可以创建“可搜索的PDF”。这些PDF显示扫描文档的确切图像，但是当您尝试选择包含文本的图像的一部分时，PDF中有一种隐藏的文本可以被选择。通过这种方式，您可以在扫描文档中复制和粘贴文本或搜索文本。这很有用。这是一个可怕的改进比原始扫描图像。我的mac上也有几个应用程序，可以从扫描文档或原始图像创建这种可搜索的PDF</em

浏览 6提问于2015-10-02得票数 1

1回答

从pdf蔚蓝认知搜索中摘取段落或句子

azure-blob-storage、azure-cognitive-search

我有一个blob容器，在那里我存储pdf文件，我使用Azure认知搜索搜索单词或内容的PDF。当搜索容器中的一个pdf中存在的单词或句子时，Azure认知搜索返回pdf中的全部内容。有没有一种方法，我们可以只提取一个句子或段落从pdf中出现的单词或句子？ 有没有办法突出显

浏览 2提问于2021-11-25得票数 1

2回答

在IE中保存来自php的pdf输出

php、tcpdf

我使用tcpdf通过php生成一个pdf文件，并相应地设置头文件，以便当在浏览器中打开php文件时，它显示为pdf。现在在另一个页面中，我有一个指向此php文件的超链接，在Firefox中，当有人右键单击此链接并使用“另存为”时，该文件将保存为pdf文档。然而，在IE上，它以包含垃圾值(pdf编码内容)

浏览 1提问于2012-06-15得票数 0

1回答

iText PDF* PArser不会使用八位位流将数据解析为一个完整的单词*

c#、pdf、itext、text-extraction

我正在尝试使用itextsharp (版本: 5.5.1.0)解析一个pdf文件。pdf文件的content-type为"application/octet-stream“。我正在使用C#代码根据位置策略进行读取var bottomLeftVector.I2]);

浏览 0提问于2017-05-17得票数 0

2回答

NLP挑战:自动删除书目/参考文献？

nlp、gensim、topic-modeling

最近我遇到了以下问题:当在一堆解析的PDF文件上应用主题模型时，我发现引用的内容不幸也是模型的一部分。例如，引用中的单词出现在标记化的单词列表中。有什么已知的“最佳实践”来解决这个问题吗？我想到了一种搜索策略，在最后一次提到“引用”或“参考书目”之后，python代码会自动删除所有内容。如果我首先在全文中随意提及“引用”或“参考书目”，

浏览 0提问于2018-01-25得票数 0

回答已采纳

3回答

如何计算给定PDF中给定单词的数量？

pdf

面试问题问题的措辞如下：我提出这项质询的理由如下：为了更好地理解这个问题的背景--我仍然无法理解这个问题的背景，面试官可能会通过问这个问题来寻找什么？为了获得不同的意见，我倾向于根据我在编程语言(

浏览 0提问于2012-01-24得票数 5

回答已采纳

1回答

node.js如何将url用作pdf2json的pdf路径

javascript、node.js、parsing、pdf、pdf-parsing

我正在使用node.js和pdf2json解析器来解析一个pdf文件。目前，它正在处理一个本地pdf文件。但是我试图通过node.js的URL/HTTP模块获得一个pdf文件，我想打开这个文件来解析它。 有没有可能解析/处理一个在线的pdf？let query = ur

浏览 18提问于2017-07-12得票数 4

1回答

从PDF文件中提取嵌入式超链接

r、pdf

我目前工作的PDF文件，特别是，我需要收集信息与超链接嵌入在PDF文件的文本。到目前为止，我所做的是使用pdftools包解析PDF文件。然而，它只呈现文本，而不呈现潜在的超链接。下面可以找到一个PDF文件的例子，它有两个嵌入的超链接(单词"sentencia“和&

浏览 1提问于2018-08-28得票数 7

回答已采纳

点击加载更多