首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >seq2sparse似乎忽略了我的"-x“参数的值

seq2sparse似乎忽略了我的"-x“参数的值
EN

Stack Overflow用户
提问于 2012-09-22 03:35:51
回答 1查看 538关注 0票数 1

出于测试目的,我在一个伪分布式hadoop安装上使用了mahout 0.7。

我正在做的很多事情都是由Mahout in Action指导的,我知道它处理的是0.5,但据我所知,seq2sparse没有什么重大变化。

我对seq2sparse生成的tfidf向量有问题。无论我将"-x“(最大文档频率百分比)设置为什么值,最终都会得到相同数量的词典中的词条和相同大小的向量。

我发现了一篇关于mahout 0.6的帖子,其中-x被解析为文档的绝对数,而不是文档的百分比。这应该已经在0.7中修复了,但我也尝试过以这种方式使用它,看看它是否会有帮助。我得到的词条数量没有变化。以下是我尝试过的值,以及我最终得到的项数。我的数据集是4850篇维基百科文章来自:http://dumps.wikimedia.org/enwiki/20110803/

确切的文件是: pages-articles1.xml.bz2

使用以下命令将xml文件转换为seqfile:

代码语言:javascript
运行
复制
mahout seqwiki -all -i <path to xml file> -o <path to output directory>

我对seq2sparse的调用如下所示:

代码语言:javascript
运行
复制
mahout seq2sparse -i <seq directory> -o <out dir> -ow -wt tfidf -x 4800 -nv

我的结果:

代码语言:javascript
运行
复制
|-x value| #of terms |
|4800    |  256623   |
|4600    |  256623   |
|2500    |  256623   |
|99      |  256623   |
|90      |  256623   |
|25      |  256623   |
|5       |  256623   |

知道我哪里做错了吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-09-26 04:02:01

我最终在mahout用户邮件列表上问了这个问题,并得到了答案。我将在这里重现它,供任何想知道我同样的事情的人使用:

Dave Byrne - "maxDFPercent实际上不会从字典中删除术语,也不会减少tfidf向量的大小,它只是将该术语的向量的值设置为0。

换句话说,字典的大小和向量的长度将保持不变,只有更少的非零项。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12537089

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档