如果没有必要,我并不真正感兴趣对文档进行分类,仅仅是相似性或相关性,理想情况下,我希望输出一个80,000 x 80,000矩阵的所有文档与相应的距离(或可能相关?相似?)其他文件。我目前正在使用NLTK来处理文档的内容并获取ngram,但是从那里我不确定应该采取什么方法来计算文档之间的相似性。我读过关于使用tf-以色列国防军和余弦相似性的文章,但是由于大量的主题,我期望有很多独特的标记,因此将两个
我正在研究一些代码来比较接近重复的代码。我有点被比较代码卡住了。到目前为止,这是我的艰难尝试。例如,如果我把每一块石板和每一块石板进行比较,那么这些文件将是相同的.{blah blah blah, Once upon a, time blah blah}如果我在同一个文档上做了一个位置比较,那么位置1将是“诸如此类的废话”而不是“曾经的”,那就会返回错误。我认为循环将是更密集<