首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >每次运行"rowsimilarity“的输出都是不同的

每次运行"rowsimilarity“的输出都是不同的
EN

Stack Overflow用户
提问于 2016-01-20 21:38:35
回答 1查看 56关注 0票数 0

Mahout:在下面提到的步骤中,每次运行的行相似性过程的输出都是不同的(在所有运行中保持所有输入相同)

Step1: seq2sparse (从文本创建向量) Step2: rowid (生成tfidf向量) Step3:行相似度(计算向量之间的相似度) Step4: seqdumper (二进制向量到文本)

更新:

感谢Pferrel的回复,

请建议我们如何指定“种子值”

我使用的命令是:${MAHOUT_HOME}/bin/mahout seq2sparse -i ${-i}/seq-DATA -o ${DATA}/vectors -n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10

${MAHOUT_HOME}/bin/mahout rowid向量${ -i }/ -o /tfidf--i/part-r-00000数据${-o}/matrix

${MAHOUT_HOME}/bin/mahout行相似性数据${ -i }/矩阵/矩阵数据${ -o }/similarity--相似性MAHOUT_HOME SIMILARITY_COSINE -m 100 -ess -ow

EN

回答 1

Stack Overflow用户

发布于 2016-01-22 04:22:00

数据是随机下采样的,因此如果您想要可重复性,请将种子设置为固定值。您还可以将下采样设置为在大量项目时启动,以禁用它,但请注意,这将使其运行速度变慢,速度将接近O(n^2)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34901595

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档