我使用以下代码来打印movie_review语料库中最常见的15个词条。
import nltk
import random
from nltk.corpus import movie_reviews
documents =[]
for category in movie_reviews.categories():
for fileid in movie_reviews.fileids(category):
documents.append((list(movie_reviews.words(fileid)), category))
random.shuffle(
我是NLTK ()和python的新手。我希望使用NLTK python库,但使用BNC作为语料库。我不相信这个语料库是通过NLTK数据下载发布的。是否有方法导入BNC语料库供NLTK使用。如果是这样的话,是怎么做的?我确实找到了一个名为BNCCorpusReader的函数,但不知道如何使用它。此外,在BNC网站上,我可以下载语料库()。
更新
我已经尝试过error的建议,但是得到了以下错误:
raise IOError('No such file or directory: %r' % _path)
OSError: No such file or directory:
我尝试使用gensim为300000条记录生成主题。在尝试可视化主题时,我得到了一个验证错误。我可以在模型训练后打印主题,但在使用pyLDAvis时失败
# Running and Training LDA model on the document term matrix.
ldamodel1 = Lda(doc_term_matrix1, num_topics=10, id2word = dictionary1, passes=50, workers = 4)
(ldamodel1.print_topics(num_topics=10, num_words = 10))
#pyLDAv