首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >选择合适的语料库,建立一个用于比较两个字符串相似性的TF-下手向量器

选择合适的语料库,建立一个用于比较两个字符串相似性的TF-下手向量器
EN

Data Science用户
提问于 2017-09-06 17:13:18
回答 1查看 638关注 0票数 1

我正在评估一组字符串对象何时可以被认为是相等的(例如,考虑到我们谈论的是期刊,“国际空气和水污染杂志”是否与“空气和水污染”相同?)我想知道什么是合适的语料库来构建TF以色列国防军向量器。

我目前使用属于同一类型的这些字符串的所有不同值作为语料库(在本例中,所有引用日志的字符串)。这是一个有效的方法吗?为什么?其他有效的方法可能是什么?

EN

回答 1

Data Science用户

发布于 2017-09-08 15:03:24

字移器距离(大规模毁灭性武器)是一种查找字符串对之间距离的算法。它基于词嵌入(如word2vec),将词的语义编码成密集向量。

大规模毁灭性武器距离将两个文本文档之间的差异度量为一个文档的嵌入词为了到达另一个文档的嵌入词而需要“移动”的最小距离。

例如:

来源:“从文字嵌入到文档距离”纸

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/22873

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档