如何使用python获取包含特定单词的文档中的句子？

在使用Python获取包含特定单词的文档中的句子时，可以使用以下步骤：

打开文档：使用Python的文件操作函数打开文档，例如使用open()函数。
读取文档内容：使用读取文件的方法，例如read()或readlines()，将文档内容保存到一个字符串或列表中，方便后续处理。
分割句子：使用Python的自然语言处理库，如NLTK（Natural Language Toolkit）或SpaCy，将文档内容分割成句子。可以使用sent_tokenize()函数进行分句操作。
搜索特定单词：遍历每个句子，使用Python的字符串处理方法，如split()或正则表达式，将句子拆分成单词。然后，使用条件语句判断特定单词是否在句子中。
输出包含特定单词的句子：如果句子中包含特定单词，将其保存到一个列表或字符串中，作为输出结果。

以下是一个示例代码，使用NLTK库进行文本处理：

import nltk
nltk.download('punkt')  # 下载需要的分句器

def get_sentences_with_word(document, word):
    with open(document, 'r') as file:
        content = file.read()
    
    sentences = nltk.sent_tokenize(content)
    result = []
    
    for sentence in sentences:
        words = sentence.split()
        if word in words:
            result.append(sentence)
    
    return result

document = 'path/to/document.txt'
word = '特定单词'

sentences_with_word = get_sentences_with_word(document, word)
for sentence in sentences_with_word:
    print(sentence)

请注意，该代码使用NLTK库进行文本处理，需要先执行nltk.download('punkt')来下载所需的分句器。此外，代码中document变量需要替换为你要读取的文档路径，word变量替换为你要搜索的特定单词。

对于云计算中的实际应用场景，可以将该代码嵌入到云原生的应用中，并使用云服务提供商的适用产品，如腾讯云的对象存储 COS（https://cloud.tencent.com/product/cos）来存储文档，或使用腾讯云的函数计算 SCF（https://cloud.tencent.com/product/scf）来运行代码。这样可以实现在云环境下处理大规模的文档和数据。

如何从数百万个段落中提取包含特定单词的句子

、、

我使用Python Scrapy删除了数百万篇报纸文章。现在，我想提取一个包含一个单词的句子。下面是我的实现。 import nltk tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') for a in articles: article_sentence = tokenizer.tokenize(a) for s in article_sentence: for w in words: if ' '+w+' ' in

浏览 2提问于2015-02-01得票数 1

2回答

在Python中使用NLTK在文件的特定区域中使用sent_tokenize？

、、、

我有一个包含数千个句子的文件，我想找到包含特定字符/单词的句子。最初，我对整个文件进行标记化(使用sent_tokenize)，然后遍历句子以找到单词。然而，这太慢了。既然我可以快速找到单词的索引，我可以利用这一点吗？有没有办法只对单词周围的区域进行标记化(即找出哪个句子包含单词)？谢谢。编辑:我使用的是Python，使用的是NLTK库。

浏览 0提问于2012-12-06得票数 1

1回答

将词转化为潜在语义分析(LSA)向量

、、、、

有没有人对如何使用Python和scikit将文档中的单词转换为LSA向量有任何建议？我发现这些站点和限制了如何将整个文档转换为lsa向量，但我感兴趣的是转换单个单词本身。最终的结果是将每个句子的所有向量(代表每个单词)相加，然后比较连续句子，以评估语义相似性。

浏览 5提问于2017-01-10得票数 0

回答已采纳

2回答

Swift:用时间戳渲染转录

、

我正在制作一个从语音转换到文本的应用程序，现在我正试图在屏幕上显示结果，我想知道如何像这个程序一样(从Otter应用程序)：基本理念： 1会话有多个句子()，每个句子有多个单词，这些单词有自己的时间戳，并将被突出显示为与当前的音频播放时间匹配。我们可以单击每个单词来播放在GIF末尾看到的时间戳，我们可以滚动滑块，单词将自动高亮显示<code>f 211</code> 我的想法： --我正在考虑为每个单词呈现UILabel (或UIButton)，通过这样做，我们可以单击每个标签并跳转到正确的时间，但我不知道如何将UILabel添加到同一行的另一个UILab

浏览 2提问于2020-05-26得票数 0

1回答

如何使用python-docx或任何其他类似包从Word文档中保存字体样式(粗体和斜体

、

我正在尝试筛选一个Word文档，并完成一些快速的语法检查。我目前有使用python-docx将文档拆分成单词的代码，然后根据特定条件对单词/句子运行语法检查。然后，我使用.add_run函数将正确的语法传递回文档。我遇到的问题是，当我将正确的语法传递回文档时，它不会保存字体样式(粗体和斜体)，所以当我粘贴单词时，它只显示为没有粗体和斜体的文本，而我想保留它。我的问题是，在python中(使用python-docx或任何其他包)有没有办法保存每个单词的字体细节(主要是粗体和斜体)，以便我可以使用代码相应地使用粗体或斜体？我已经尝试对段落和运行使用.style函数，但出现的问题是，每个段落的样式

浏览 0提问于2019-07-24得票数 0

3回答

python数据挖掘

、、

我对数据挖掘并不感兴趣，但我需要一些关于聚类的想法。让我先描述一下我的问题。我有大约100份包含用户评论的数据表。我正在尝试为实例寻找描述质量的单词。有人可以说这是惊人的质量，另一个人可以说非常好的质量，现在我必须对描述这些相似句子的文档进行聚类，并获得这些句子的频率。在这里应用什么概念？我想我必须指定一些停用的单词和同义词。我对这个概念不是很熟悉。有人能给我一些详细的链接或解释吗？使用什么工具？我基本上是一个python程序员，所以任何python模块都会很感激。谢谢

浏览 2提问于2011-04-04得票数 3

回答已采纳

2回答

在Python中，如何接收字符串文本，并返回包含字符串列表的列表？

、、、

此函数接受一个字符串文本，并返回一个包含字符串列表的列表，该列表为字符串文本中的每个句子提供一个列表。句子由一个字符串“、"?”或“！”分隔。我们忽略了其他标点符号分隔句子的可能性。所以“X先生”将变成两个句子，而‘不要’将是两个单词。例如，文本是 Hello, Jack. How is it going? Not bad; pretty good, actually... Very very good, in fact. 该函数返回： “你好”、“杰克”、“如何”、“是”、“它”、“去”、“不”、“坏”、“漂亮”、“好”、“实际上”、“非常”、“非常”、“很好”、“在”中

浏览 14提问于2014-11-06得票数 0

2回答

在词典中添加句首词

我有一些文本，在Python中有一个带有阅读模块的任务：“查找作为句子开头词的字典。换句话说，如果一个单词在句子的开头，就把它包含在字典中。“这个文件是.txt，它包含大约10-15段。你对如何改进它有想法吗？ f = open("1.txt", encoding="UTF-8") words = [line.split(maxsplit=1)[0] for line in f if line.strip()] for line in f: if line.strip(): words.append(line.split(maxspl

浏览 6提问于2021-05-12得票数 1

回答已采纳

3回答

识别列表中没有匹配单词的句子

我有一个句子列表，我想要识别其中至少没有一个单词与另一个列表中包含的单词相匹配的所有句子。我尝试使用列表理解来实现这一点，如下所示 [sentence for sentence in sentences if word_list is not in sentence] 这是不起作用的，因为我正在询问单词列表中的单词是否不在句子中。我需要的关键功能是能够识别所有在单词列表中没有与单词匹配的单词的句子。我正在寻找ASR错误，我有一个单词列表，其中至少有一个必须在每个句子中或该句子有ASR错误。我可以弄清楚如何使用grep -v并通过管道将它们连接在一起，但我想用Python语言来实现。

浏览 31提问于2019-09-15得票数 0

回答已采纳

4回答

使用Python从语料库中提取句子

、

我正在尝试使用Python从文本中提取句子。文本中的每个单词都写在一行中，并带有与该单词相关的附加信息： Mary Noun Name loves Verb No-Name John Noun Name . Punct No-Name 句子边界用一条空线标记。我想要提取包含具有某些特定特征的单词的整个句子(例如，带有名称的句子)。到目前为止，我只提取了感兴趣的单词，而不是整个句子。我使用.readlines()逐行阅读文本。然后，我循环遍历这些行，并使用re和.split('\t')来拆分这些行，这样每一行都由一个包含3个元素的列表表示。然后，我将列表中的元素与所需的值进行匹

浏览 0提问于2012-10-16得票数 1

1回答

解析句子-匹配词形变化并跳过标点

、、、

我正在尝试用python解析句子--对于我得到的任何句子，我应该只接受出现在单词'say‘或'ask’之后的单词(如果单词没有出现，我应该使用整个句子)我只是使用正则表达式： sen = re.search('(?s)(?<=say|Say).*$', current_game_row["sentence"], re.M | re.I) (这只用于'say'，但添加'ask‘不是问题...) 问题是，如果我得到一个句子，像逗号，冒号(，:)后面的单词‘说’，它也采取了标点符号。有人建议我使用nltk标记化来定义它，但

浏览 4提问于2021-02-05得票数 1

1回答

NLTK中单个单词的标记

、、

是否有一个标签可以在任何上下文中为一个单词返回一个标签？我的要求是，我需要从非结构化文本中提取单词，在这些文本中，句子不会有结构化语法。 POS taggers是用来处理句子的，并根据该句子中单词的上下文返回一个单词的标签。因此，我要么必须使用另一个标签，为特定的单词每次给出相同的标记，要么在分块时使用所有可能的标记。任何其他解决方案都将不胜感激。另外，如何查看可以为特定单词分配的所有标记？

浏览 1提问于2015-03-19得票数 1

回答已采纳

1回答

Solr做基于句子的搜索

、

当给定一个单词时，我需要找出它出现在句子中的概率。在这里，我想找出包含给定词的句子总数在第二个要求中，我必须搜索考虑句子的单词，而不是考虑文档或字段。这个是可能的吗？

浏览 4提问于2014-08-15得票数 0

1回答

按词长过滤句子

我必须从用户那里得到一个句子和一个整数，将这个句子分成单词。然后计算每个单词中的字符。如果每个单词的字符数超过用户输入的整数，则应打印该单词。所以如果用户输入句子"i love cats"和数字3。所有超过3个字符的单词(在本例中只有love)以及它包含的字符数(在本例中为4)都应该出现。问题是我不知道如何让程序计算每个特定单词中的字母。有没有一种方法可以把列表切成子列表，然后计算每个子列表中的字符数？

浏览 1提问于2014-02-07得票数 1

5回答

如何将字符串从一个列表连接到Python第二个列表中的其他字符串？

我在Python中有两个列表：第一个列表包含句子，第二个列表包含来自第一个列表中的句子的不寻常的单词。 sentences = ['Buy apples', 'red apples', 'green'] uncommon_words = ['buy', 'red', 'green', 'apples'] 我怎样才能得到一个新的列表，在句子的末尾添加了一些不常见的单词，而这些单词并不在句子中？(最好在单词开头加上‘- '’) 示例： new_list = ['Buy

浏览 7提问于2019-11-22得票数 2

回答已采纳

1回答

Chrome扩展从网页获取信息

、、

我正在写chrome扩展。我的目的是当有人点击任何页面中的一个单词时，我希望在我的代码中获得该句子。我已经找到了chrome扩展的getClick函数，但是我不知道如何获取包含被点击单词的句子？或者，也许还有其他方法可以做到这一点？谢谢！

浏览 4提问于2018-08-08得票数 0

回答已采纳

1回答

如何在python中使用regex替换句子列表中的多个子字符串？

、、、

我有一个句子列表，如下所示： sentences = ["I am learning to code", "coding seems to be intresting in python", "how to code in python", "practicing how to code is the key"] 现在，我希望使用字典及其替代项替换这个句子列表中的几个子字符串。 word_list = {'intresting': 'interesting', 'how to code&#

浏览 22提问于2021-09-03得票数 0

回答已采纳

1回答

Nutch中作为文件的句子

、、、、

当保存爬行结果时，我需要Nutch将网页分割成句子。其原因是Solr在索引时将每个句子视为文档。我需要的结果是能够搜索，比如“一个单词”，并得到包含“一个”和/或“单词”的所有句子的列表。我对纳奇很陌生，所以一些指点会很有用. 我应该查看Nutch配置文件吗？我需要更改Nutch源代码吗？还是可以编写一个单独的应用程序来编辑爬行结果？

浏览 2提问于2011-10-30得票数 1

回答已采纳

2回答

遍历列表列表并计算不同列表的匹配项

、、、、

我是python的新手，目前正在为我的硕士论文做情感分析。然而，我目前正在解决这个问题，我真的不知道如何解决它。我需要在字符串中找到一个包含单词BLA的句子，然后将句子中的每个单词与我的肯定词和否定词词典进行比较。如果否定的单词多于肯定的单词，计数器应该做+1。最后，我会得到这样的结果:在文件1中，有4个否定句子包含单词BLA。到目前为止，我使用正则表达式删除了所有不包含单词BLA的句子。然后，我将句子中的单词分开，并创建一个列表列表。例如，它看起来像这样： [‘我们’，‘表现不佳’，‘因为’，'of'，'BLA'，'BLA'，'is

浏览 1提问于2019-12-08得票数 0

5回答

返回句子中的第一个单词？

、

这是我在学校必须回答的问题在这个问题中，我们将一个单词定义为一个句子的结尾，如果这个单词后面紧跟着一个句号。例如，在文本“这是一个句子”中。最后一句话有四个单词。“，结尾的单词是‘句子’和‘单词’。以类似的方式，我们将句子的起始词定义为句子结尾之前的任何单词。上一个示例文本的起始词将是“The”。您不需要将文本的第一个单词视为起始单词。编写一个具有以下功能的程序：接受单个字符串参数的endwords函数。此函数必须返回出现在给定字符串中的所有句子结尾单词的列表。返回列表中不能有重复的条目，句点不能包含在结束词中。到目前为止，我拥有的代码是： def startwords(astring)

浏览 0提问于2017-06-05得票数 1

1回答

在csv文件中将类似的句子字符串组合在一起

、、、、

我目前正在处理Python中的一个项目，该项目依赖于获取csv文件。csv文件包含数千多个随机句子，其中某些句子之间有一些相似之处。我的代码的目的是确定哪一种句子是一种类型，并以上下文的方式引用相同的东西。例如，所有引用Gmail的句子，例如： Gmail login Gmail account login Gmail account register 引用相同的上下文，但可以在输入文件中彼此相距很远，嵌套在与不同上下文无关的句子中。到目前为止，我使用的方法是：按字母顺序对句子中的每个单词进行排序，并以小写形式排列，例如：帐户gmail登录将文件中的原始索引作为自己的列，按cs

浏览 2提问于2016-04-12得票数 2

回答已采纳

1回答

检查数据库中的句子是否包含字典中的特定单词

、、

我有一个巨大的字典( Python)，其中包含数百万个单词，每个单词都有一个表示受欢迎程度的分数。(注:我将其作为字典使用，但我也可以很容易地将其作为数据帧使用)。我还有一个包含数百个句子的数据库/SQL表，每个句子都有一个ID。我想看看每个句子是否包含一个热门单词，即是否包含分数低于某个数字n的单词。迭代每个句子，每次检查每个单词，看看它是否在字典中，以及它的分数是多少，效率是否很低？有没有其他更有效的方法来做到这一点？

浏览 12提问于2021-09-06得票数 0

回答已采纳

3回答

内存中不同对象的大小

我在一个List<string>中有大约100,000个句子。我正在尝试将这些句子按单词拆分，并将所有内容添加到List<List<string>>中，其中每个List包含一个句子，其中包含另一个单词的List。我这样做是因为我必须在每个单词上做不同的工作。在记忆中，句子的List<string>和单词的List<List<string>>的大小有什么不同？其中一个最终将存储在内存中，因此我正在寻找拆分每个句子对内存的影响，而不是只使用string

浏览 2提问于2013-04-26得票数 3

回答已采纳

2回答

Lucene:在句子中搜索一组特定的连续单词

我已经为单词列表建立了索引，比如“刚刚看到”、“刚刚通过”、“刚刚遇到”。我有一个句子列表，我只想提取那些有这些关键字的句子。例如“我刚看了一部电影”。但是我不想要像‘我在美国见过奥巴马’这样的句子。我只想要那些有连续关键字的句子。我如何使用luence来做到这一点？

浏览 2提问于2010-11-03得票数 3

1回答

NLTK Perceptron它识别什么为FW (外来词)？

、、、、

相对较新的NLP，并致力于使用NLTK的PerceptronTagger (在Python中)标记包含外来单词的句子，但它继续在语法中按位置标记标记的外来单词，而不是作为'FW‘。整个句子必须使用语言(加载了适当的语言选择文件)才能使'FW‘标记工作？在英语句子中有没有一种感觉外来词的方法？在这个问题的另一面，包含外国单词的句子是否已经标准化成英语标签为英语？(如:企业家、午睡、时代精神等)

浏览 3提问于2017-06-14得票数 3

5回答

如何使用BERT对相似句子进行聚类

、、、、

对于ElMo，FastText和Word2Vec，我平均句子中的单词嵌入，并使用HDBSCAN/KMeans聚类来对相似的句子进行分组。在这篇简短的文章中可以看到一个很好的实现示例：http://ai.intelligentonlinetools.com/ml/text-clustering-word-embedding-machine-learning/ 我想用BERT做同样的事情(使用hugging face中的BERT python包)，但是我不太熟悉如何提取原始的单词/句子向量，以便将它们输入到聚类算法中。我知道BERT可以输出句子表示-那么我如何真正从句子中提取原始向量呢？任何

浏览 367提问于2019-04-11得票数 23

回答已采纳

1回答

是否有方法在文本语料库中找到特定的单词序列？

、、

使用Python，当病人被诊断为哮喘(关键字2)时，我试图找到患者的age(关键字4)。文本句子可能在这些关键字的所需序列之间包含其他单词。例如：短信：“嗨，斯蒂夫，很高兴听到你现在情况不太好！你不是一个人！I是一个轻度控制运动引起的哮喘患者，13岁的，然后经历了类似的情况，你的19岁。随机开始有问题，经过文托林像明天一样。” 预期产出: 13

浏览 1提问于2021-05-15得票数 1

5回答

将HTML解析成句子--如何处理表/列表/标题/等等？

、、、、

如何将包含自由文本、列表、表格、标题等的HTML页面解析成句子？以为例。有/正在：免费文本：列表：表：在使用python 之后，我想测试所有这些不同的语料库注释方法(来自)：单词令牌化：文本的正字法形式不明确地标识它的标记。除了传统的正字法版本之外，令牌化和规范化版本可能是一个非常方便的资源。句子切分：正如我们在第三章中看到的，句子切分可能比看起来更困难。因此，一些语料库使用显式注释来标记句子切分。段落分段：段落和其他结构元素(标题、章节等)可能被显式注释。词类：文档中每个单词的句法类别。句法结构：表示句子组成结构的树状结构。浅

浏览 10提问于2012-06-30得票数 8

3回答

NLP -预处理过程中的小写文本

、、、

我想要建立一个语言模型，它应该预测一个句子中的下一个单词，考虑到前一个单词和/或前一个句子。用例:我想要自动编写报告的。所以模型应该自动完成我正在写的句子。因此，名词和句子开头的单词大写是很重要的。 data ：数据是德语的，包含很多技术术语。我的文本语料库是德语，我目前正在进行预处理。由于我的模型应该预测语法上正确的句子，所以我决定使用/不使用以下预处理步骤：不移除塞子无柠檬化用数字替换所有表达式同义词和缩略语的规范化用罕见的词代替稀有的词然而，我不知道是否将语料库转换为小写。在网上搜索时，我发现了不同的意见。虽然小写大小写很常见，但它会导致我的

浏览 0提问于2017-08-24得票数 7

回答已采纳

1回答

我可以使用python在外部应用程序中更改输入吗？

、、

我希望python代码能够将特定的句子输入到一个独立的开源应用程序中。这里有更多的信息:我已经在我的个人电脑上安装了Anki (开源闪存卡程序)，我想编写一个代码来查找一个单词的定义和相应的例子(例如，在上下文中显示一个单词的句子)，然后将它输入到一个应用程序中，这样我就不需要手动操作了。因此，问题是：“是否可以使用python访问应用程序中的输入字段?如果是，那么如何访问？” 顺便说一句，我还没有找到任何能回答这个问题的东西

浏览 9提问于2022-08-22得票数 0

回答已采纳

1回答

有没有一种方法可以在训练doc2vec模型之前加载预先训练好的词向量？

、

我正在尝试建立一个大约有10k个句子的doc2vec模型，然后我将使用这个模型在一些新句子的模型中找到最相似的句子。我已经使用我拥有的语料库(10k个句子)训练了一个gensim doc2vec模型。这个模型可以在一定程度上告诉我一个新句子是否与语料库中的一些句子相似。但是，有一个问题:新句子中可能存在语料库中不存在的单词，这意味着它们没有单词嵌入。如果发生这种情况，预测结果将不会很好。据我所知，经过训练的doc2vec模型确实有一个文档向量矩阵和一个单词向量矩阵。因此，我的想法是加载一组预先训练的词向量，其中包含大量的单词，然后训练模型以获得文档向量。这有意义吗？是否可以使用gensim？

浏览 1提问于2019-07-12得票数 0

1回答

gensim word2vec词嵌入如何为一个词句提取训练词对？

、、、、

请参考下面的图片( word2vec跳过图如何从输入句子中提取训练数据集的过程)。例如：“我爱你。”==> (我，爱)，(我，你) 如果这个句子只包含一个单词，我可以问一下这个词对是什么？是“快乐！”==> (快乐，快乐)吗？我对word2vec算法进行了基因测试，当训练集中只有一个词时(而这个词不包含在其他句子中)，word2vec算法仍然可以为这个特定的词构造一个嵌入向量。我不知道这个算法是如何做到的。 ===============UPDATE=============================== 正如下面发布的答案，我认为为1字句子中的单词创建的单词

浏览 1提问于2020-06-05得票数 0

回答已采纳

1回答

python中表示语料库句子的一种热编码方法

、、、、

我是Python和Scikit学习库的初学者。目前我需要做一个NLP项目，它首先需要用一个单一的热编码来表示一个大的语料库。我读过Scikit-学习关于preprocessing.OneHotEncoder的文档，然而，它似乎不是我的术语的理解。基本上，这一想法类似于以下内容： 1000000星期日；0100000星期一；0010000星期二；. 0000001星期六；如果语料库只有7个不同的单词，那么我只需要一个7位向量来表示每个单词。然后，一个完整的句子可以用所有向量的连词来表示，这就是一个句子矩阵。然而，我试过用Python，它似乎不起作用. 我怎么才能解决这个问题？我的

浏览 2提问于2015-05-20得票数 3

回答已采纳

1回答

在ASP.NET标签和文本框中从右向左书写句子

、、、

如何在ASP.NET标签或文本框中正确显示英语和非英语(波斯语、波斯语、中东)单词？当我只输入或显示英语或非英语(波斯语)单词时，这是可以的，但当我输入或显示一个同时包含这两个单词的句子时，所有内容都乱七八糟，句子放错了地方，标点符号插入错误，换句话说，很难理解所写的内容。当我打算使用Office Word编写波斯语文档(可能包含英语单词)时，首先我将段落方向设置为从右到左，是否可以在ASP.NET中执行类似的操作？当然，我在我的ASPX文件中设置了跟随样式，现在我的文本框开始从右向左书写，但它对解决上述问题没有任何帮助！ Style="text-align: right" 我

浏览 1提问于2011-10-28得票数 7

回答已采纳

2回答

哪些单词需要省略？

、、

我正在尝试找出两个句子之间的一些相似性度量。为此，我利用了两个单词各自的语义相似性。但是字典里有很多单词是我从我的句子里造出来的。我想从句子中去掉一些我认为不能传达内容信息的单词。首先，我删除了字母较少的单词，但我不认为这是合理的，因为它还删除了一些信息丰富的单词。看看下面几个句子的部分 "Despite the fact that ..." "There's a debate such that ..." "To sum up ..." "Although ..., there is ..." 如果我有一个涉及这些单词

浏览 1提问于2012-12-20得票数 0

回答已采纳

1回答

如果只有句子包含来自搜索列表的任何关键字，则从数据框文本列中选择句子

、、、、

我有一个数据框架，在一列中，我有一个全文，其中有多个非常长的句子。我使用NLTK对文本进行标记化，但现在我需要确保只从给定的完整单词的长列表中提取包含任意单词的句子。我写了下面的代码，但它的问题是，它不是作为一个整体检查文本中的单词，而是例如在搜索列表中找出一个给定的单词，比如'tic'，它选择一个包含单词‘统计’的句子。 symptoms = [long list of words ~ about 100] new_df = df[df['Sentence'].str.contains('|'.join(symptoms))] 就在这段代码之上

浏览 0提问于2020-10-17得票数 1

1回答

有没有办法将ElasticSearch搜索命中结果与查询到的术语关联起来(REST API，ES 7.10)

、

我正在写一个服务，本质上是审查文本中列入黑名单的单词(脏话，等等)。为此，我有一个ElasticSearch索引，其中包含由词干分析器处理的所有黑名单中的单词，因此如果我索引了"f__k“，就可以得到"f___er”等的命中结果。我通过REST API查询ES以获得需要审查的句子。在查询时，我使用标记化+词干转换查询时分析器；模糊性目前是关闭的，但我最终也想启用它，以捕获拼写错误或故意混淆的情况。为了进行审查，我需要能够识别哪个命中与哪个搜索词相关。在ElasticSearch 7.10+上使用REST API可以做到这一点吗？谢谢

浏览 0提问于2021-06-09得票数 0

2回答

弹性搜索，搜索数据就像“文本%”一样？

我想找到以我要找的字符开头的句子或单词，我应该怎么做？例如：如下所示获取数据列表 automatic car car carpet car accessories car battery cast game cards race car 当我搜索单词"car“时，我找到了以下数据。 car car accessories car battery carpet 当我搜索单词"ca“时，我找到了以下数据 cast car car accessories car battery carpet 也就是说，我不想让他搜索整个句子，我只想让他搜索以搜索字符开头的单词。举个sql的例子

浏览 0提问于2019-10-03得票数 0

1回答

在DataFrame中用字典替换句子中的单词

、、、

我正试图用字典来替换dataframe句子中的单词。我怎样才能取代原来的数据？字典: rep_vocab包含{wrong words: correct words} dataframe: data_test列‘质询1’句子列‘d5’包含一组单词，这些单词在句子中拼写错误。我用这个列快速定位出有错误单词的句子行。我的代码： data_test.loc[data_test['d5']!=set()['question1'].replace(rep_vocab,regex=True) 它返回正确的结果，但是dataframe中的原始值不会改变。我尝试过其他方式，比

浏览 0提问于2019-08-20得票数 0

3回答

将句子转换为Pig拉丁语

、

我是Python的新手，我正在尝试做的一个练习项目是将句子转换成猪拉丁语。最初的项目只是将单词转换为小猪拉丁语，但我想将其扩展为转换句子。以下是我到目前为止拥有的代码： import sys print("Pig Latin Maker") VOWELS = 'aeiouy' while True: word = input ("Write a Word: ") if word[0] in VOWELS: pig_Latin = word + 'way' else:

浏览 1提问于2020-06-16得票数 0

4回答

如何更改列表框中单词的颜色？

、、、、

我用一个TextBox做了一个表单，它接受一个单词，并搜索一些句子，看看它们中是否有一个包含了这个单词，.After，我必须显示这些句子，突出显示单词.My，计划是做一个ListBox，并在其中添加句子。我的问题是如何高亮显示这个单词(我想是通过改变颜色)，这样就可以区分它了。有更好的办法吗？我选择了ListBox，所以我可以选择我要找的句子。编辑根据@Thorsten Dittmar的指示，创建所有者绘制的列表框。 public partial class Form1 : Form { private List<string> _items;

浏览 0提问于2012-05-31得票数 1

1回答

匹配包含给定单词的句子

我的桌子上有一列句子。我希望选择所有包含给定单词的句子。单词只包含以下字母: a-z，áéíóú 唯一的其他字符是一个空格，将句子中的每个单词分开。句子的开头和结尾都没有空格。所以句子是这样的： "i am here" "no im here" 选择包含"i“一词的句子只应与上面的第一句相匹配。如何从表中选择这些行？

浏览 0提问于2013-08-14得票数 1

回答已采纳

8回答

如何计算一个单词在一个句子中出现的次数？

、、

所以我已经学习Python几个月了，我想知道如何编写一个函数来计算一个单词在句子中出现的次数。如果有人能给我一个循序渐进的方法，我将不胜感激。

浏览 6提问于2011-11-26得票数 10

5回答

如何使用python查找单词在句子中的位置？

、、

如何使用python查找单词在句子中的位置？例如，句子中的第四个单词。 sentence = "It's a beautiful world." word = "world" locate_word(word,sentence) = 4

浏览 101提问于2019-12-19得票数 2

2回答

在一个句子中查找多个单词

、、

我希望为我的网站，其中包含几个课程的搜索工具。我基本上想输入一个单词，如果这个单词存在，我们当然会查看所有页面，然后根据单词出现的次数对页面进行分类。因此，我制作了一个包含"coursnumero“、"textcours”、“liencour”的SQL表，在课程文本中包含了相关课程的所有文本。我有： SELECT count(*) FROM `cours` WHERE `textcours` like '%super%' groupby `coursnumero` 它显示1，但我的句子中有2个单词"super“，我如何解决这个问题？

浏览 0提问于2018-05-07得票数 0

2回答

将波斯语或阿拉伯语句子替换为随机生成的英语

、、、、

如何将波斯语或阿拉伯语句子替换为随机生成的英语单词或句子。例如，我有一个url，如下所示 www.example.com/arti/19029/متی-نتها-نیبتی/new 我想按如下方式转换它 www.example.com/arti/19029/xideo-oiend/new xideo-oiend只是一个随机生成的单词，与متی-نتها-نیبتی无关。仅将波斯语或阿拉伯语句子替换为英语随机生成的句子。如何在php中找到一个阿拉伯语句子。

浏览 3提问于2013-08-26得票数 0

1回答

从列表中查找单词列表中唯一的例句

、、、、

我有一个3000个单词的列表(大部分是唯一的)，按它们在英语中的频率排序。我还列出了3000句独特的句子。理想情况下，我希望使用Python为每个单词的使用生成一个示例语句的列表。所以每个单词都有一个句子，其中包含这个词，和它配对。但是，任何句子都不应该与多个单词配对，而且任何一个单词都不应该有多个与它相关的句子。但这是个陷阱，这是一个混乱的数据集，所以许多单词会出现在一个以上的句子中，一些单词只会出现在一个句子中，而许多单词不会出现在任何一个句子中。所以我不会得到我理想的结果。相反，我想要的是一个最理想的列表，列出与单词匹配的最多的句子。然后是被省略的句子列表。而且，理想情况下，排序列表应

浏览 5提问于2020-09-24得票数 1

3回答

读取Word文档的代码

、、、、

我需要一个脚本(或其他代码、C#等)这将获取一组word 2007文档中包含特定单词的每个段落/句子，并将它们移动到新的Word文档中，记录从中提取它们的原始(源)文档的文件名。

浏览 2提问于2011-11-02得票数 1

回答已采纳

3回答

在java的字符串中查找特定单词的Regex

、

我需要一些正则表达式的帮助:我正在检查一个句子是否包含一个特定的单词。让我们以本主题的标题为例： “在字符串中查找特定单词的Regex” 我需要找到它是否包含单词 if ，在本例中它是假的。我不能使用包含的方法，因为在本例中它将返回true (spec*if*ic) 我正在考虑使用匹配的方法，但我有点不喜欢正则表达式。基本上，匹配方法输入的正则表达式需要指定我要查找的单词之前的字符和单词后面的字符不是字母(因此不能包含在该单词中)，或者该单词位于句子的开头或结尾。非常感谢!

浏览 1提问于2013-08-17得票数 4

回答已采纳

1回答

如何改进培训中看不见的文本的语言模型？

、、、、

因此，我使用预先训练过的语言模型进行二进制分类。我通过培训数据优化模型，我的下游任务。结果表明，该方法的F值几乎为98% . 然而，当我从训练数据中删除一个特定的相似句子并将它添加到我的测试数据中时，分类器无法预测该句子的类别。例如，情绪分析任务 “我喜欢这部电影，更确切地说，演技很棒” 我从训练中删除了包含单词“更具体”的的所有句子，令人惊讶的是，在测试集中，它们都被错误分类了，因此精度下降了大量。对于如何进一步微调/改进我的模型，以便在培训中更好地处理看不见的文本，以避免上述问题，有什么想法吗？(当然，没有对包含单词“更具体地”的句子提供模型注意:不管使用中的语言模型是什么，我

浏览 2提问于2021-12-21得票数 1