出于测试目的,我在一个伪分布式hadoop安装上使用了mahout 0.7。
我正在做的很多事情都是由Mahout in Action指导的,我知道它处理的是0.5,但据我所知,seq2sparse没有什么重大变化。
我对seq2sparse生成的tfidf向量有问题。无论我将"-x“(最大文档频率百分比)设置为什么值,最终都会得到相同数量的词典中的词条和相同大小的向量。
我发现了一篇关于mahout 0.6的帖子,其中-x被解析为文档的绝对数,而不是文档的百分比。这应该已经在0.7中修复了,但我也尝试过以这种方式使用它,看看它是否会有帮助。我得到的词条数量没有变化。以下是我尝试过的值,以及我最终得到的项数。我的数据集是4850篇维基百科文章来自:http://dumps.wikimedia.org/enwiki/20110803/
确切的文件是: pages-articles1.xml.bz2
使用以下命令将xml文件转换为seqfile:
mahout seqwiki -all -i <path to xml file> -o <path to output directory>我对seq2sparse的调用如下所示:
mahout seq2sparse -i <seq directory> -o <out dir> -ow -wt tfidf -x 4800 -nv我的结果:
|-x value| #of terms |
|4800    |  256623   |
|4600    |  256623   |
|2500    |  256623   |
|99      |  256623   |
|90      |  256623   |
|25      |  256623   |
|5       |  256623   |知道我哪里做错了吗?
发布于 2012-09-26 04:02:01
我最终在mahout用户邮件列表上问了这个问题,并得到了答案。我将在这里重现它,供任何想知道我同样的事情的人使用:
Dave Byrne - "maxDFPercent实际上不会从字典中删除术语,也不会减少tfidf向量的大小,它只是将该术语的向量的值设置为0。
换句话说,字典的大小和向量的长度将保持不变,只有更少的非零项。
https://stackoverflow.com/questions/12537089
复制相似问题