如何使用NLTK或pywsd进行词汇化

、、、、

然后我像这样做了标记化，我选择了我想要在数据帧(Df_tweet1)中标记化(tweet content)的变量： # Tokenizationtokenized_sentslower() not in new_stopwords_list] clean_sents.append(stop_m) 输出是相同的，但没有停止字接下来的两个步骤让我感到困惑(词性标记和词汇化=True) 我得到了这个错误: TypeError:期望的字符串或类似字节的

浏览 28提问于2020-03-27得票数 2

回答已采纳

2回答

NLTK :不像预期的那样细化

、

我试着用NLTK的WordNetLemmatizer把句子中的所有单词混合起来。我有很多句子，但我只是用第一句来确保我做得对。

浏览 0提问于2018-06-22得票数 1

回答已采纳

1回答

nltk:如何将周围的词融入语境？

、、、、

下面的代码打印出leafprint(lem.lemmatize我如何告诉NLTK，在考虑到周围环境的情况下，将单词混合起来？

浏览 3提问于2018-03-19得票数 0

3回答

对txt文件进行符号化，只替换已命名的单词。

、、

找出如何将单词从txt文件中提取的方法有困难。我已经把这些词列了出来，但我不知道如何在事实之后把它们混淆起来。我现在拥有的是：nltk.download('wordnet') def

浏览 1提问于2018-03-17得票数 3

回答已采纳

1回答

对词的词义消歧

、、

假设我有一个单词A和一个单词B，其中我用B作为暗示，它暗示了A的意思，例如，A=低音，B=音乐，假设这个词是对的，作为人类，我们可以立即知道A这个词是什么意思。

浏览 3提问于2014-06-20得票数 2

回答已采纳

1回答

pandas中的Lemmatize标记化列

、、

我正在尝试对标记化的列comments_tokenized进行词汇化 ? 我有： import nltklemmatizer =["comments_tokenized"].apply(lemmatize_text) 但却有 TypeError: unhashable type: 'list' 我能

浏览 44提问于2020-01-03得票数 1

回答已采纳

3回答

NLTK WordNet词法分析器:它不应该将一个单词的所有词形变化都词汇化吗？

、、

我正在使用NLTK WordNet Lemmatizer进行词性标注项目，首先将训练语料库中的每个单词修改为其词干(就地修改)，然后仅在新语料库上进行训练。例如，单词loves被词汇化为love，这是正确的，但是即使在词汇化之后，单词loving仍然是loving。这里的loving和句子中的"I'm loving it“一样。同样，许多其他的“ing”形式在词汇化后仍然存在。这是正确的行为吗？还有什么其他的<e

浏览 44提问于2014-08-28得票数 38

回答已采纳

2回答

在Python中对Twitter数据框使用列举化和Tf- Idf计算时出错

、、

我有一个tweet的数据帧，我试图在词条化的'tweet‘列上计算Tf-Idf。我对词汇化的结果有一个问题，并且在尝试计算Tf-Idf时得到一个错误。下面是我的代码： w_tokenizer = nltk.tokenize.WhitespaceTokenizer() def lemmatize_text我的第一个问题--我如何改进词汇化？现在，我想要计算此列的Tf- Idf，并在我的数据框中生成

浏览 54提问于2020-07-27得票数 2

回答已采纳

1回答

使用quanteda进行词法分析

、

如何使用quanteda对像makes这样的单词进行词汇化，使其成为make。在Python语言中，可以使用NLTK WordNet Lemmatizer

浏览 53提问于2020-06-12得票数 0

回答已采纳

1回答

使用nltk恢复原始单词，并使用完整语义进行标记化

、

我知道使用nltk模块我可以对单词进行词汇化lemmatizer = WordNetLemmatizer() 或但问题是，我没有完整的句子可以标记化。我想输入一个单词，它返回没有句子标记化的原始单

浏览 10提问于2019-10-22得票数 0

1回答

NLTK词汇化

、、、、

我正在尝试用NLTK对单词进行词汇化。我现在能找到的是，我可以使用stem包得到一些结果，比如将"cars“转换为"car”，将“女人”转换为“女人”，但是我不能对一些带有词缀的单词进行词汇化，比如“致谢”。当在"acknowledgement“上使用WordNetLemmatizer()时，它会返回"acknowledgement"，而使用.PorterStemme

浏览 0提问于2013-07-17得票数 4

回答已采纳

1回答

使用Python和nltk的词例化

、、

我需要用Python对一些单词进行词汇化Resource punkt not found.Please use the NLTK Downloader to obtain the resource: >>> nltk.download('punkt') 我已经安装了nltk，并且之前导入了库。

浏览 1提问于2018-12-11得票数 0

1回答

NLTK WordNetLemmatizer将"US“处理为"u”

、、

如果您将单词"US" (美国)从package nltk.stem输入到WordNetLemmatizer中，在经过预处理(变成"us"，即小写)之后，它将被翻译为"u"。例如： from nltk.stem import WordNetLemmatizerword = "US".lower() # "US"becomes "us" lemma = lmtzr.lemmatize

浏览 7提问于2019-02-20得票数 2

回答已采纳

1回答

如何对句子列表进行词汇化

、、、

如何在Python中列出句子列表？from nltk.stem.wordnet import WordNetLemmatizerlmtzr = WordNetLemmatizer我需要对之前的单词进行标记化才能正常工作吗？

浏览 63提问于2018-06-05得票数 5

回答已采纳

2回答

所有熊猫细胞的Lemmatization

、

如何使用nltk库有效地计算所有这些单词的引理？import nltk我希望能够为pandas数据集中某一列中所有单元格的所有单词找到一个引理。

浏览 1提问于2017-11-30得票数 11

回答已采纳

1回答

在Python中优化语言检测代码和词汇化

、、、、

我有一个JSON格式的亚马逊用户评论数据，我正在将其导入到pandas dataframe中，并使用它来训练文本分类模型。我正在尝试在使用该数据训练模型之前对用户评论文本进行预处理。lang2)在训练模型之前，我想对我的单词进行词汇化但是，如果我们将词性标记为单词，NLTK中的词汇</

浏览 11提问于2018-02-08得票数 0

回答已采纳

1回答

Nltk lemmatizers不识别化学名称的复数形式

、、、

所以，我必须承认，我完全是nlp的新手，我对nltk一无所知，我只是试图使用上一位开发人员留下的遗留代码。我需要对大部分来自化学和生物技术出版物的词语进行词汇化。我通常使用WordNetLemmatizer。大多数情况下，它都是有效的。from nltk.stem import WordNetLemmatizerlemmatizer.lemmatize('cats')

浏览 5提问于2020-03-24得票数 0

1回答

在python中删除不在NLTK库中的停用词

、

我一直在尝试从csv文件中删除在NLTK库中找不到的停用词，但当我生成新的数据帧时，我仍然看到其中的一些单词，并且我不确定如何删除它们。我不确定我的代码有什么问题，但它是这样的： import nltkfrom nltk.corpus from nltk.corpus imp

浏览 12提问于2020-11-20得票数 0

2回答

多语言NLTK，用于词性标记和词法分析

、、、、

最近，我接触了自然语言处理，尝试使用和来分析文本。我想开发一个应用程序，分析旅行者的评论，因此我必须管理许多用不同语言编写的文本。我需要做两个主要的操作: POS标签和词汇化。我已经看到，在NLTK中，有可能为句子标记化选择正确的语言，如下所示： tokenizer = nltk.data.load('tokenizers/punkt/PY3/italian.pickle')如何为意大利语、法语、西班牙语或</e

浏览 3提问于2015-09-23得票数 14

8回答

python中的wordnet词汇化和pos标记

、、、

我想在python中使用wordnet lemmatizer，并且我了解到默认的pos标签是名词，并且它不会为动词输出正确的词条，除非pos标签被明确指定为动词。我的问题是，为了准确地执行上述词汇化，最好的镜头是什么？from nltk.stem.wordnet import WordNetLemmatizer

浏览 5提问于2013-03-23得票数 71

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

NLTK :不像预期的那样细化

nltk:如何将周围的词融入语境？

对txt文件进行符号化，只替换已命名的单词。

对词的词义消歧

pandas中的Lemmatize标记化列

NLTK WordNet词法分析器:它不应该将一个单词的所有词形变化都词汇化吗？

在Python中对Twitter数据框使用列举化和Tf- Idf计算时出错

使用quanteda进行词法分析

使用nltk恢复原始单词，并使用完整语义进行标记化

NLTK词汇化

使用Python和nltk的词例化

NLTK WordNetLemmatizer将"US“处理为"u”

如何对句子列表进行词汇化

所有熊猫细胞的Lemmatization

在Python中优化语言检测代码和词汇化

Nltk lemmatizers不识别化学名称的复数形式

在python中删除不在NLTK库中的停用词

多语言NLTK，用于词性标记和词法分析

python中的wordnet词汇化和pos标记

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐