我越来越熟悉雅各布·珀金斯的书"Python text Processing with NLTK2.0 Cookbook“中的NLTK和文本分类。我的文件中的每一行(一段文本-领域标题、描述、关键字的组合),都是特征提取的主题:分词化等,以使其成为机器学习算法的实例。
我有两个这样的文件,其中包含所有正面和负面的内容。我之前尝试过其他解决方案,比如scikit,最后选择了NLTK,希望从一个更容易的点开始。
当使用NLTK进行实体识别时,就会得到一个带有映射到标记的单词的Tree (例如。Mark -> NNP,first -> JJ,.)乍一看,还不清楚所有的标记代表什么,而且我无法在NLTK文档中找到关于这些标记的任何文档。>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sentence = "Mark and John are the first to