问每次运行"rowsimilarity“的输出都是不同的
EN

Stack Overflow用户

提问于 2016-01-20 21:38:35

回答 1查看 56关注 0票数 0

Mahout:在下面提到的步骤中，每次运行的行相似性过程的输出都是不同的(在所有运行中保持所有输入相同)

Step1: seq2sparse (从文本创建向量) Step2: rowid (生成tfidf向量) Step3:行相似度(计算向量之间的相似度) Step4: seqdumper (二进制向量到文本)

更新：

感谢Pferrel的回复，

请建议我们如何指定“种子值”

我使用的命令是：${MAHOUT_HOME}/bin/mahout seq2sparse -i ${-i}/seq-DATA -o ${DATA}/vectors -n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10

${MAHOUT_HOME}/bin/mahout rowid向量${ -i }/ -o /tfidf--i/part-r-00000数据${-o}/matrix

${MAHOUT_HOME}/bin/mahout行相似性数据${ -i }/矩阵/矩阵数据${ -o }/similarity--相似性MAHOUT_HOME SIMILARITY_COSINE -m 100 -ess -ow

发布于 2016-01-22 04:22:00

数据是随机下采样的，因此如果您想要可重复性，请将种子设置为固定值。您还可以将下采样设置为在大量项目时启动，以禁用它，但请注意，这将使其运行速度变慢，速度将接近O(n^2)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34901595

复制

相似问题

问每次运行"rowsimilarity“的输出都是不同的EN