使用spacy和nltk的单词词汇化没有给出正确的引理

。

首先，让我们了解一下spacy和nltk是什么。

spacy是一个流行的自然语言处理（NLP）库，它提供了一套功能强大的工具，用于处理和分析文本数据。它具有高效的处理速度和准确的语言模型，可以用于词性标注、命名实体识别、句法分析等任务。

nltk（Natural Language Toolkit）是Python中广泛使用的自然语言处理库，它提供了丰富的工具和资源，用于处理和分析文本数据。它包含了各种文本处理任务的算法和语料库，可以用于分词、词性标注、情感分析等。

单词词汇化是将文本数据中的单词转化为其基本形式或词干形式的过程。这有助于在文本分析和信息检索中减少词形变化的影响，提高模型的准确性和一致性。

然而，使用spacy和nltk进行单词词汇化时，可能会出现一些问题，导致没有给出正确的引理。这些问题可能包括：

语言模型的限制：spacy和nltk的语言模型可能无法正确处理某些特定的单词形式或词汇。这可能导致一些单词的词干化结果不准确。
上下文的影响：单词的词干形式可能受到上下文的影响。在某些情况下，词干化的结果可能与预期不符，因为上下文信息没有被充分考虑。

为了解决这些问题，可以尝试以下方法：

自定义规则：可以使用自定义规则来处理特定的单词形式或词汇。这可以通过编写正则表达式或使用特定的词干化算法来实现。
语料库扩充：可以使用更大规模的语料库来训练语言模型，以提高单词词干化的准确性。这可以通过使用更全面的文本数据集或特定领域的语料库来实现。
结合其他工具：除了spacy和nltk，还可以尝试结合其他NLP工具或库来进行单词词干化。例如，可以使用Stanford CoreNLP或Gensim等工具来提供更准确的词干化结果。

总结起来，尽管spacy和nltk是强大的自然语言处理工具，但在单词词干化方面可能存在一些限制。为了解决这些问题，可以尝试使用自定义规则、扩充语料库或结合其他工具来提高单词词干化的准确性。

使用spacy和nltk的单词词汇化没有给出正确的引理

、

我想要得到下面列表中单词的词汇化： (例如) words = ['Funnier','Funniest','mightiest','tighter'] 当我做spacy时， import spacynlp = spacy.load('en') words = ['Funnier','Funniest','mightiest

浏览 12提问于2019-09-27得票数 0

回答已采纳

1回答

为什么NLTK的Wordnet不对副词和形容词进行修饰？

、、

正如我所了解的，如果我们在每个标记上识别相应的PoS标记，然后设置引号，不仅使动词、名词，而且还包括形容词和副词形式，我们就可以做得更好。因此，我已经有了这些代码行，详细说明了上述四种类型，这样我就可以返回“绝对”和“可爱”的根表单。然而，我仍然能用同样的词来形容这些。这里有三个问题：这

浏览 18提问于2022-02-22得票数 0

回答已采纳

1回答

使用Spacy进行词汇化

我有一个包含句子的列表。list = ["I'm hoping to go jogging", "I haven't eaten in a while","where is everybody going"]我知道我可以在循环中打印引理</

浏览 5提问于2017-08-07得票数 1

2回答

Spacy柠檬化是起不了作用，还是把所有以"-ing“结尾的词都混淆了？

、、

当我运行喷鼻狐猴，它并没有混淆“咨询”一词，因此我怀疑它是失败的。这是我的代码：lemmatizer = nlp.get_pipe('lemmatizer')print([token.lemma_ for token in doc]) 我的<

浏览 5提问于2022-10-23得票数 1

回答已采纳

1回答

在Amazon Comprehend中识别一个单词的不同时态

、、、

我正在使用Amazon Comprehend进行实体受伤检测。约翰做了手术，修复了左膝脱臼和前十字韧带撕裂。亚马逊理解医疗(ACM)能够将脱臼识别为一种医疗状况。有没有什么方法可以清理我的文本，改变单词的顺序，以便可以准确地标记这些实体？

浏览 21提问于2019-10-24得票数 1

1回答

如何使用SpaCy或NLTK从英语中的词根或词条生成所有派生术语？

、、

在NLTK或SpaCy中有没有一个函数可以提供所有可能的术语，这些术语可以从给定的引理单词中派生出来？例如:如果引理是“呼吸”，我需要“呼吸”的所有派生术语，如“呼吸”，“呼吸”等。SpaCy中的.lemma_属性和NLTK中的WordNetLemmatizer()函数可以用来确定一个词的引理，但是我如何做相反

浏览 0提问于2021-05-01得票数 1

1回答

如何使用Fasttext构建词法分析器

、、、

我有大量的阿拉伯方言单词(4M)和它们对应的词条，我想通过利用它为不在该数据中的新词建立一个词汇化器。问题是如何使用FastText构建这个词汇化工具？

浏览 10提问于2020-04-02得票数 0

4回答

单个词的空间引理

、

我正试图得到一个词的引人的版本。有没有办法使用"spacy“(奇妙的python库)来做到这一点。下面是我尝试过的代码，但这不起作用)：from spacy.lookups import Lookupslemmatizer = Lemmatizer(lookups)lemm

浏览 6提问于2020-01-07得票数 4

回答已采纳

1回答

组合spacyr和quanteda以产生词汇化语料库或dfm

、

我知道如何使用quanteda构建语料库和dfm。我还了解如何使用spacy_parse对文本或语料库对象进行词汇化。corpus(my_txt) %>%生成一个引理矩阵，例如： be havefirst_text

浏览 0提问于2021-04-12得票数 0

2回答

统计给定语料库中的引理个数

、、

目前，我正在一个语料库上工作，并试图使用add-one平滑来实现二元模型。这里V是语料库的词汇表，即语料库中单词类型的总数。但在统计单词类型时，我将同一词干中的单词视为单个单词。也就是说，猫和猫在计数时是一样的。我想知道是否有任何方法或算法可以帮助我在语料库中找到引理。

浏览 1提问于2015-02-19得票数 0

1回答

如何对名词进行词汇化？

、、

我正在尝试使用NLTK.stem Wordlemmatizer将像"Escalation“这样的词归类为"Escalate”。word_lem = WordNetLemmatizer() 应该使用哪个pos标签来获得类似于"escalate“的结果

浏览 1提问于2021-05-08得票数 1

3回答

香水柠檬是如何工作的？

、、、、

对于柠檬化，空间有一个：形容词，副词，动词。也列出了例外情况:adverbs_irreg.对于普通的，有一组由于它是一个形容词，因此，狐猴化的规则应从以下清单中摘取： ["est", ""], ["est", "e"]

浏览 0提问于2017-05-05得票数 15

回答已采纳

3回答

NLTK WordNet词法分析器:它不应该将一个单词的所有词形变化都词汇化吗？

、、

我正在使用NLTK WordNet Lemmatizer进行词性标注项目，首先将训练语料库中的每个单词修改为其词干(就地修改)，然后仅在新语料库上进行训练。然而，我发现lemmatizer并没有像我预期的那样起作用。例如，单词loves被词汇化为love，这是正确的，但是即使在词汇化之后，单词loving仍然是loving。这里的loving<

浏览 44提问于2014-08-28得票数 38

回答已采纳

1回答

，如果同义词从我的小字典中掉出来，我就递归地调用NLTK函数来查找上次同义词的同义词从nltk.corpus导入wordnet innovative = wordnet.synsets.02’) 显然，新词包括“advanced”，“前瞻性”，“现代”，“创新”，“开创性”都是新词，不在我的字典里，所以现在我应该使用这些词作为开始再次调用synsets函数，直到没有新的词汇词出现。谁能给我一个演示代码，

浏览 1提问于2013-02-15得票数 0

1回答

用于情感分析的N个grams

、、、

我正在对来自不同零售商的产品评论进行情感分析。我想知道是否有一种API使用n g进行情绪分析来将评论分类为正面或负面。我有一个充满评论的CSV文件，我想在python中运行它，因此我想要一个API或包，而不是一个工具。任何朝向这一点的方向都会很好。谢谢

浏览 7提问于2018-02-24得票数 0

回答已采纳

1回答

错误地使用nltk* "python 3.7.4“进行词条分类*

、、

我正在使用nltk lemmatizer，但每次都得到错误的结果!！>>> import nltk>>> print(WordNetLemmatizer().lemmatize('

浏览 19提问于2019-10-12得票数 1

回答已采纳

1回答

如何将多个单词名称放在一起进行标记化？

、、、、

我想使用TF-IDF特征对文档进行分类。Eidgenossenschaft."print(tokenize(example)) 这个分词器的一个缺陷是它将属于一起的单词拆分："Jochen Schweizer“和"schweizerische Eidgenossenschaft”。此外，还缺少词汇化(单词词干)。

浏览 18提问于2019-10-09得票数 2

回答已采纳

7回答

Python中最好的词干方法是什么？

、、

我尝试了所有的nltk方法进行词干，但它给了我一些奇怪的结果与一些词。示例谢谢

浏览 3提问于2014-07-09得票数 44

回答已采纳

2回答

使用虚词-查找与引线句？

、、

我有包含需要匹配的自定义多词实体的输入句子，因此为此目的，我使用了优秀的库。然而，它有一个缺陷:它不能识别作为实体的句子中的复数词。我目前的“解决办法”是这样做：words = list(map(lambda token: token.lemma_, doc)) le

浏览 0提问于2019-02-17得票数 0

1回答

Spacy -预处理和词汇化需要很长时间

、、、

现在，我正在尝试在提供给TF-IDF之前使用Spacy清理文本。输入文件有大约20,000条记录，每条记录只有很少的句子。文件的总大小为45MB。使用WordNet的词汇化只需要几秒钟。但是下面的代码使用Spacy的时间太长了。20分钟后，我的笔记本电脑挂起了。请建议如何优化Spacy的文本预处理和词汇<em

浏览 1提问于2018-09-19得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用spacy和nltk的单词词汇化没有给出正确的引理

相关·内容

使用spacy和nltk的单词词汇化没有给出正确的引理

为什么NLTK的Wordnet不对副词和形容词进行修饰？

使用Spacy进行词汇化

Spacy柠檬化是起不了作用，还是把所有以"-ing“结尾的词都混淆了？

在Amazon Comprehend中识别一个单词的不同时态

如何使用SpaCy或NLTK从英语中的词根或词条生成所有派生术语？

如何使用Fasttext构建词法分析器

单个词的空间引理

组合spacyr和quanteda以产生词汇化语料库或dfm

统计给定语料库中的引理个数

如何对名词进行词汇化？

香水柠檬是如何工作的？

NLTK WordNet词法分析器:它不应该将一个单词的所有词形变化都词汇化吗？

从NLTK中递归提取新词的同义词

用于情感分析的N个grams

错误地使用nltk* "python 3.7.4“进行词条分类*

如何将多个单词名称放在一起进行标记化？

Python中最好的词干方法是什么？

使用虚词-查找与引线句？

Spacy -预处理和词汇化需要很长时间

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐