我需要在一个大型数据集上运行nltk.pos_tag,并且需要像斯坦福塔格提供的输出那样运行它。例如,在运行下面的代码时;text=nltk.word_tokenize("We are going out.Just you and me.")
print nltk.pos_tag我不喜欢使用字符串函数,我需要一个dirrect输出,因为文本的数量太大了,而且它给处理增加了很多时间复杂性。
import nltk
lines = File.read() #read all linesnouns = [] #empty to array to hold all nouns
for word,pos in nltk.pos_tag(nltk.word_tokenize(str(sentence))):
我创建了两个列表: l1是我的主要列表,l2是包含某些终止词的列表。我打算从l2中的第二个嵌套列表中删除l1中的停止词。但是,代码似乎效率低下,只有一个停止字被移除,而其余部分则保留在l1中。这就是l1的样子:
[['ham', 'And how you will do that, princess? :)'], ['spam', 'Urgent! Please call 09061213237 from landline. £5000 cash or a luxury 4* Canary Islands Holiday await co