标记化
为了开始自然语言处理, 我们将从一些非常简单的文本解析开始。标记化是提取文本流的一个过程, 如一个句子, 并将其分解为其最基本的单词。...例如, 取以下句子:“he red fox jumps over the moon .”每个单词都代表一个标记, 其中共有七个。...因此, 您可以看到 NLTK 如何将句子分解为各个标记并解释语音的某些部分, 例如 ("fox"、"NN"):
NN 名词, 单数 "fox"
停止词删除
许多句子和段落中包含的单词几乎没有意义或价值...词干提取
词干提取是减少单词噪声的过程,也称为词典归一化。它减少了词形变化。例如, "钓鱼" 一词有一个词干 "鱼"。词干提取是用来把一个词简化为它的基本含义。...这称为单词规范化, 两者都可以生成相同的输出结果。然而, 它们的工作方式却大不相同。词干提取试图将单词切分而词形还原给你提供观察单词是名词、动词还是其他词性。让我们以单词 "saw"为例。