Mahout:在下面提到的步骤中,每次运行的行相似性过程的输出都是不同的(在所有运行中保持所有输入相同)
Step1: seq2sparse (从文本创建向量) Step2: rowid (生成tfidf向量) Step3:行相似度(计算向量之间的相似度) Step4: seqdumper (二进制向量到文本)
更新:
感谢Pferrel的回复,
请建议我们如何指定“种子值”
我使用的命令是:${MAHOUT_HOME}/bin/mahout seq2sparse -i ${-i}/seq-DATA -o ${DATA}/vectors -n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10
${MAHOUT_HOME}/bin/mahout rowid向量${ -i }/ -o /tfidf--i/part-r-00000数据${-o}/matrix
${MAHOUT_HOME}/bin/mahout行相似性数据${ -i }/矩阵/矩阵数据${ -o }/similarity--相似性MAHOUT_HOME SIMILARITY_COSINE -m 100 -ess -ow
发布于 2016-01-22 04:22:00
数据是随机下采样的,因此如果您想要可重复性,请将种子设置为固定值。您还可以将下采样设置为在大量项目时启动,以禁用它,但请注意,这将使其运行速度变慢,速度将接近O(n^2)。
https://stackoverflow.com/questions/34901595
复制相似问题