我们也将会学习如何预处理文本数据,以便可以从“干净”数据中提取更好的特征。
一、基本特征提取
即使我们对NLP没有充足的知识储备,但是我们可以使用python来提取文本数据的几个基本特征。...,同时还会降低搜索的效率;
这类就更多了,包括了语气助词、副词、介词、连接词等,通常自身 并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。...二、文本数据的预处理
到目前为止,我们已经学会了如何从文本数据中提取基本特征。深入文本和特征提取之前,我们的第一步应该是清洗数据,以获得更好的特性。..., dtype: object
正如你所看到的在上面的输出中,所有的标点符号,包括"#"和"@"已经从训练数据中去除
2.3 停用词去除
正如我们前面所讨论的,停止词(或常见单词)应该从文本数据中删除。..., dtype: object
2.5 稀缺词去除
同样,正如我们删除最常见的话说,这一次让我们从文本中删除很少出现的词。