import time
with open('txt.txt', 'r') as myfile:
data=myfile.read().replace('\n', '')
pdf_content = data.split(" ")`
vocab = input('Vocab word to search for: ')
if vocab not in pdf_content:
print('word not found....')
if vocab in pdf_c
我会搜索存储在couchdb中的文档中的关键字或复杂表达式。有一些例子可以告诉我如何继续?例如,在存储txt或pdf文档后,我需要在文档中搜索特定的单词或表达式
例如,存储在couchdb数据库中的pdf文档中的单词"foo“的数量,一个巨大而长的txt文档中的表达式"this is a example”。
当我使用mupdf在PDF文件中搜索单词时。只有它才能找到整个单词。例如,搜索“无意义”这个词会发现整个单词:
This is a short, staggeringly meaningless sentence.
我不可能事先知道一个词是否分了两行--因此:连字符--是否是连字符。显式地搜索连字符也太麻烦了。然而,当一个词被包装在一行的末尾时,它就找不到了。在这个例子中,搜索“无意义”这个词是找不到的:
This is a short, staggeringly meaning-
less sentence.
PDF查看器"Evince“的行为也是一样的。有没有一种(简单的)方法让&
我得到了这个错误,"Microsoft正在等待另一个应用程序完成OLE操作“,当我试图自动化PDF字符串搜索并在excel中记录结果时。对于某些PDF,此错误不会弹出。我认为这是由于不太优化的PDF需要更长的时间来搜索字符串,同时逐页索引。
更准确地说,我有一本包含两张工作表的工作簿。其中一个包含PDF文件名列表,另一个包含我想搜索的单词列表。从文件列表中,宏将打开每个PDF文件,并从单词列表中提取每个单词,并执行字符串搜索。如果找到,它将用文件名和找到的字符串在同一个工作簿中的新工作表中记录每个查找结果。
下面是我正在苦苦挣扎的代码。欢迎任何帮助。
Public Sub Search