首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >比较词云查询

比较词云查询
EN

Stack Overflow用户
提问于 2015-06-18 17:39:20
回答 1查看 630关注 0票数 1

我在R中的wordcloud包中使用了comparison.cloud函数。'good‘一词在Cat1 (27次)和Cat2(33次)两个类别中都出现了,但在wordcloud中,由于某些原因,它只出现在Cat1下(可能因为它是第一列)。

你能建议如何调整它以获得所有单词(即使它在多个类别中是相同的单词)。这对我的数据集来说是一个重要的发现,当它从Cat2中删除最重要的单词时,它违背了比较云的目的。

数据如下图所示:

代码语言:javascript
运行
复制
       Cat1     Cat2     Cat3

好- 27 - 33 -3

错误- 10 -6-4

..。

代码为:

比较词云

tdm= read.table("doc.csv")

png("comparision_wordcloud.png",width=1280,height=800)

comparison.cloud(tdm,colors = brewer.pal(nemo,"Dark2"),use.r.layout=FALSE,

代码语言:javascript
运行
复制
             scale = c(4,.5), max.words = 1000, rot.per=.1, random.order = FALSE, title.size = 2)

如果有快速修复的方法,请告诉我。

EN

回答 1

Stack Overflow用户

发布于 2016-04-02 19:15:37

据我所知,比较云计算每个术语最有可能出现的类别(即术语“好”最有可能出现在类别1中)。因此,每个术语在比较云中只会出现一次。

我没有看过这个函数背后的代码,但我想它是从计算“好”一词在所有类别中的平均出现次数开始的,然后依次计算每个类别的平均出现次数。通过计算每个类别中术语的平均值和总体平均值之间的差异,您可以计算出术语应该出现在云中的哪个类别(即总体平均值和类别平均值之间的最大正差异)。

因此,在您的示例中:尽管“good”在cat 2中出现的频率更高,但cat1中的总体术语可能更少,因此在cat1中它实际上会更重要。底线是,我不认为比较云会做你想要的事情。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30911799

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档