文章/答案/技术大牛

发布

社区首页 >问答首页 >seq2sparse似乎忽略了我的"-x“参数的值

问seq2sparse似乎忽略了我的"-x“参数的值
EN

Stack Overflow用户

提问于 2012-09-22 03:35:51

回答 1查看 538关注 0票数 1

出于测试目的，我在一个伪分布式hadoop安装上使用了mahout 0.7。

我正在做的很多事情都是由Mahout in Action指导的，我知道它处理的是0.5，但据我所知，seq2sparse没有什么重大变化。

我对seq2sparse生成的tfidf向量有问题。无论我将"-x“(最大文档频率百分比)设置为什么值，最终都会得到相同数量的词典中的词条和相同大小的向量。

我发现了一篇关于mahout 0.6的帖子，其中-x被解析为文档的绝对数，而不是文档的百分比。这应该已经在0.7中修复了，但我也尝试过以这种方式使用它，看看它是否会有帮助。我得到的词条数量没有变化。以下是我尝试过的值，以及我最终得到的项数。我的数据集是4850篇维基百科文章来自：http://dumps.wikimedia.org/enwiki/20110803/

确切的文件是: pages-articles1.xml.bz2

使用以下命令将xml文件转换为seqfile：

mahout seqwiki -all -i <path to xml file> -o <path to output directory>

我对seq2sparse的调用如下所示：

mahout seq2sparse -i <seq directory> -o <out dir> -ow -wt tfidf -x 4800 -nv

我的结果：

|-x value| #of terms |
|4800    |  256623   |
|4600    |  256623   |
|2500    |  256623   |
|99      |  256623   |
|90      |  256623   |
|25      |  256623   |
|5       |  256623   |

知道我哪里做错了吗？

mahout

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-09-26 04:02:01

我最终在mahout用户邮件列表上问了这个问题，并得到了答案。我将在这里重现它，供任何想知道我同样的事情的人使用：

Dave Byrne - "maxDFPercent实际上不会从字典中删除术语，也不会减少tfidf向量的大小，它只是将该术语的向量的值设置为0。

换句话说，字典的大小和向量的长度将保持不变，只有更少的非零项。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12537089

复制

相似问题

问seq2sparse似乎忽略了我的"-x“参数的值
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问seq2sparse似乎忽略了我的"-x“参数的值EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问seq2sparse似乎忽略了我的"-x“参数的值
EN