我在R中的wordcloud包中使用了comparison.cloud函数。'good‘一词在Cat1 (27次)和Cat2(33次)两个类别中都出现了,但在wordcloud中,由于某些原因,它只出现在Cat1下(可能因为它是第一列)。
你能建议如何调整它以获得所有单词(即使它在多个类别中是相同的单词)。这对我的数据集来说是一个重要的发现,当它从Cat2中删除最重要的单词时,它违背了比较云的目的。
数据如下图所示:
Cat1 Cat2 Cat3
好- 27 - 33 -3
错误- 10 -6-4
..。
代码为:
比较词云
tdm= read.table("doc.csv")
png("comparision_wordcloud.png",width=1280,height=800)
comparison.cloud(tdm,colors = brewer.pal(nemo,"Dark2"),use.r.layout=FALSE,
scale = c(4,.5), max.words = 1000, rot.per=.1, random.order = FALSE, title.size = 2)
如果有快速修复的方法,请告诉我。
发布于 2016-04-02 19:15:37
据我所知,比较云计算每个术语最有可能出现的类别(即术语“好”最有可能出现在类别1中)。因此,每个术语在比较云中只会出现一次。
我没有看过这个函数背后的代码,但我想它是从计算“好”一词在所有类别中的平均出现次数开始的,然后依次计算每个类别的平均出现次数。通过计算每个类别中术语的平均值和总体平均值之间的差异,您可以计算出术语应该出现在云中的哪个类别(即总体平均值和类别平均值之间的最大正差异)。
因此,在您的示例中:尽管“good”在cat 2中出现的频率更高,但cat1中的总体术语可能更少,因此在cat1中它实际上会更重要。底线是,我不认为比较云会做你想要的事情。
https://stackoverflow.com/questions/30911799
复制相似问题