首先,我是python/nltk的新手,所以如果这个问题太基本了,我很抱歉。我有一个大文件,我试图对其进行标记;我得到了内存错误。我不确定为什么会显示这个错误,因为(在读取文件之后,我检查了它的类型,它实际上是一个字符串。# tokenizing large file one line at a timefilename=open("X:\MyFile.txt","r").read()
type'str' and 'list'
Python和NLTK新手在这里。胡乱摆弄什么东西。我有一个字符串,其中包含来自pdf文档的文本,并且我正在尝试使用nltk库提取实体名称 str_output = f.readlines= [nltk.word_tokenize(sentence) for sentence in sentences]我经历了导入数据、