我正在评估一组字符串对象何时可以被认为是相等的(例如,考虑到我们谈论的是期刊,“国际空气和水污染杂志”是否与“空气和水污染”相同?)我想知道什么是合适的语料库来构建TF以色列国防军向量器。
我目前使用属于同一类型的这些字符串的所有不同值作为语料库(在本例中,所有引用日志的字符串)。这是一个有效的方法吗?为什么?其他有效的方法可能是什么?
发布于 2017-09-08 15:03:24
字移器距离(大规模毁灭性武器)是一种查找字符串对之间距离的算法。它基于词嵌入(如word2vec),将词的语义编码成密集向量。
大规模毁灭性武器距离将两个文本文档之间的差异度量为一个文档的嵌入词为了到达另一个文档的嵌入词而需要“移动”的最小距离。
例如:
来源:“从文字嵌入到文档距离”纸
https://datascience.stackexchange.com/questions/22873
复制相似问题