我已经在Quanteda中为我的DFM计算了词汇多样性,并希望随着时间的推移绘制出来。在我的语料库中,每个文档都有年、月和日期变量作为docvar。有没有办法将这些数据结合起来,并绘制出随时间变化的词汇多样性图?
发布于 2017-09-20 20:45:50
要绘制随时间变化的词汇多样性图,您需要计算随时间变化的词汇多样性,即按时间(月或年-取决于您)对数据进行分组,然后计算每个组的词汇多样性。一旦你有了这个,你将有一个值每组,然后可以用来绘图。
示例:
lex_div <- doc1_final %>%
group_by(Page) %>%
summarise(lex_div = length(unique(word))/length(word))
我已经附上了一张doc1_final对象的图片。它基本上是一个被分解成单词的数据帧,即每行一个单词。然后,我将doc1_final对象传递给group_by函数,然后对分组的数据执行计算。
你需要安装'dplyr‘包才能运行上面的代码。enter image description here
https://stackoverflow.com/questions/45443574
复制相似问题