如何从现在分词或Python中的其他变体中找到单词的词根？

文章/答案/技术大牛

发布

1回答

python、algorithm、nlp、nltk、linguistics

我正在做一个NLP项目，现在，我一直在检测某些短语的反义词，这些短语不是“标准”形式(比如动词、形容词、名词)，而是现在分词、过去时或类似的东西。例如，如果我有短语“到达”或“到达”，我需要将其转换为“到达”。同样，"come“应该是”come“。最后，“不满意”应该是“不满意”。有人能帮我解决这个问题吗？我用Python在NLTK中尝试了几个词干分析器和lemmanizer，但都没有用；它们中的大多数都不能生成正确

浏览 15提问于2020-05-27得票数 0

1回答

在spaCy中从词根(引理)和词性部分(POS)标记中获取完整的单词“文本”。

python、nlp、spacy

如何将词根和部分词性标记组合成一个完全修改的单词？I希望逆转这个过程--获得一个给定特定“引理”/“POS”/“标记”组合的“文本”字符串。是否可以在spaCy中实现，如果可以，如何实现？我知道可以复数/共轭/etc ("untokenize"?

浏览 3提问于2017-12-26得票数 3

回答已采纳

1回答

删除TF下手的同义词导致python

python、nlp、tf-idf、cosine-similarity

我目前正在进行一个项目，在这个项目中使用python中的tfidf获取文档集中最相关的10个单词。然而，也有结果，其中有得到相同的词和它的多元或副词左右。为了解决这个问题，我决定使用词根，但这会导致一个问题，即单词及其反义词可以具有相同的词根，或者通过将一个单词还原为它的根，如果用户要搜索它，就不能返回并在文档中找到这个特定<e

浏览 1提问于2019-12-27得票数 1

回答已采纳

1回答

ntlk:如何获得词的变化

python、nltk、lemmatization

我有一个单词列表，将近5000个英语单词，每个单词我都需要这些屈折的形式：动词:不定式，现在简单，现在简单第三人称，过去简单，现在分词(形式)，过去分词副词如何通过python从ntlk中的给定单词(例如帮助)中提取这些信息？(或者可能有一份现成的清单)

浏览 1提问于2016-05-05得票数 2

回答已采纳

1回答

神经标记器是如何工作的？

neural-network、tokenization

但我不清楚这种模型在输出格式方面应该如何工作。如果输出是令牌，那么它们可以表示为从嵌入中提取的嵌入、一个热索引或索引/int？你能描述这种模型的输入和输出的形状和意义吗？是否可以使用嵌入式输出(或嵌入层的反向输出来输出表示令牌的整数)？如果输出是一个热的，那么

浏览 0提问于2020-10-15得票数 -1

2回答

JQL实际的“包含”

jira、contains、jql

我想在一个包含部分内容的文本字段上执行一个简单的搜索，但我不知道开始部分。我基本上想要的是人们对“包含搜索”的期望。如果我在issue中搜索345，我会得到以下结果：234567...在JQL中，这将是查询issue ~ "*345*"的结果，但是通配符查询中不允许*作为第一个字符。有没有一种简单的方法来获得这个结果，最好是使用JQL查询？

浏览 2提问于2017-05-22得票数 4

2回答

寻找基本单词并估计它们的难度

algorithm、language-agnostic、nlp、heuristics

", 0.5]] 难度/复杂性从“小菜一碟”到“令人难以置信的一件事”。关于什么应该被认为是基本单词的一些想法可以找到，但也许一种更简单的确定它的方法是使用一本字典。不过，有可能(

浏览 4提问于2013-04-13得票数 4

2回答

为什么分词和文件名扩展不适用于`[.]]‘中的条件表达式？

bash

来自Bash参考手册shell扫描参数展开、命令替换和算术扩展的结果，这些结果没有出现在双引号内，用于分词。如果出现其中一个字符，则该单词被视为模式，并替换为与模式匹配的按字母排序的文件名列表。因此，在参数展开、命令替换和算术扩展之后，除非对双引号中的部分进行分词，否则会发生分词现象。在[[ ... ]]中，贾尔斯和John1024都说单词

浏览 0提问于2016-03-16得票数 0

1回答

基于R文本分析的拼写错误识别

r、replace、words、tm、stemming

我对R中的TM包很陌生，我正在尝试执行一个单词频率分析，但我知道我的源文件中有几个拼写问题，我想知道如何在执行单词频率分析之前修复这些拼写错误。我已经读了另一篇文章()，但我对其中提出的解决方案有一个疑问:在创建TermDocumentMatrix和词频分析之前，是否可以使用字典(例如，数据框架)在我的语料库中进行几个/所有的替换？我有一个带有字典的数据框架，它的结构如下： sept -> sep

浏览 2提问于2015-05-19得票数 2

回答已采纳

1回答

python -使用nltk和scikit从文本中为标记云选择最相关的单词--学习

python、data-mining、nltk、text-mining、scikit-learn

为了准备一个标签云，我想从文本中获取最相关的单词。我使用了来自scikit-learn包的CountVectoriser： stop_wordscounts = cv.fit_transform([text]).toarray().ravel()我可以过滤掉不常出现的词我的</e

浏览 4提问于2013-02-07得票数 3

2回答

如何从数百万个段落中提取包含特定单词的句子

python、python-2.7、nlp

我使用Python Scrapy删除了数百万篇报纸文章。现在，我想提取一个包含一个单词的句子。下面是我的实现。for w in words: sentences[w].append(s) 我有大约1000个单词上面的代码效率不高，而且需要花费大量的时间。此外，句子可以包含不同形式的词根(过去时)。<em

浏览 2提问于2015-02-01得票数 1

2回答

Porter Stemmer可以返回词缀而不是词干吗？

python、nlp、nltk、porter-stemmer

我正在做一个项目，在这个项目中，我试图计算多个语料库的词形变化百分比，以便对它们进行比较。我知道如何使用nltk Porter Stemmer来获取单词的词根，但如果我能返回词缀而不是词根，对我来说会更有帮助。如果我能做到这一点，我可以只计算词干截断的词缀数量("ly“、"ed”等)，并将其与单词总数进行比较。这可能是一个简单的翻转，但我不知道如何用根来做这件事。

浏览 17提问于2019-03-30得票数 1

2回答

Word2Vec如何对待不在词汇表中的单词

word2vec

我试图为我句子中的每个单词指定一个向量。有些词即使是非常相似的词也不被识别--例如：Going，gone，go被识别，而goes则不被识别。我应该如何将任何逻辑值分配给goes这个词或类似的任何单词？请注意，我不知道什么词是不会被认出来的。

浏览 0提问于2016-08-29得票数 1

4回答

如何找到基本的，无曲解的词进行搜索？

perl、search、nlp、stemming、lemmatization

所以对于动词，这些都是相同的词根，be：那么对于名词来说，单数形

浏览 2提问于2011-05-31得票数 2

回答已采纳

1回答

Solr拼写检查查询术语修改

solr、spell-checking

我有以下问题：</lst><bool name="correctlySpelled">false</bool></response> 上面的输出也有像“wor

浏览 2提问于2017-08-28得票数 1

回答已采纳

2回答

NLP:我如何将词干和标签结合起来？

python、nlp、nltk、tagging、stemming

我正在尝试编写代码，它传递的文本已经被标记，停止词被过滤掉，然后继续并标记它。但是，我不确定我应该按照什么顺序进行标记。然而，由于我是第一个词干，pos_tag经常给单词贴上错误的标签。例如，它将"hous“标记为形容词，而原来的单词实际上是名词"house”。但是，当我试图在标记后进行词干时，它给了我一个关于pos_tag如何不能处理‘元组’的错误--我猜这与词根分析器将单词列表格式化为[('come&

浏览 4提问于2020-04-24得票数 0

回答已采纳

3回答

只在一个句子中找到一个单词，而不是在一个单词中找到一个单词(python)

python

在Python中，通过使用： number = number + 1word = "or"if word in sentence: n

浏览 6提问于2013-11-01得票数 1

回答已采纳

5回答

如何避免重复加载大文件？

java、python、performance、process、persistence

我正在尝试从python中调用一个Java程序(斯坦福中文分词程序)。Java程序需要加载一个大的(100M)字典文件(帮助分词的单词列表)，这需要12+秒。我想知道是否有可能加快加载过程，更重要的是，当我需要多次调用python脚本时，如何避免重复加载它？以下是代码的相关部分：

浏览 4提问于2012-01-28得票数 4

回答已采纳

2回答

使用哪个HTML5标签来强调和讨论一个单词？

html、tags、semantic-markup

当我想强调或讨论与普通文本块中的计算机代码相关的单词时，我使用<code>标记。例如：单词

浏览 0提问于2018-08-27得票数 1

1回答

在使用Word2vec时，如何从看不见的单词语料库中获得结果？

python、word2vec

我正在使用Word2vec模型来提取相似的单词，但我想知道是否有可能在使用看不见的单词进行输入的同时获得单词。这是可能的情况吗？

浏览 0提问于2020-03-06得票数 0

点击加载更多