文章/答案/技术大牛

发布

社区首页 >问答首页 >职称相似性

问职称相似性
EN

Data Science用户

提问于 2014-07-21 09:00:04

回答 4查看 1.8K关注 0票数 8

我试图在IT领域的职称之间定义一个度量标准。为此，我需要一些没有出现在同一个职称中的职称词之间的度量，例如单词之间的度量。

高级，初级，领导，领导，副总裁，董事，人员，校长，主任，

或者说那些话

分析师，专家，建模师，研究员，科学家，开发人员，工程师，建筑师。

我怎样才能用距离得到所有这些可能的词呢？

machine-learning

dataset

回答 4

Data Science用户

发布于 2014-07-21 21:32:12

这是个有趣的问题，谢谢你带我们到这里来。

我认为这个问题类似于我们在情感分析中应用潜在语义分析来找出与某些预定义的正负词有关的极性的正负词列表。

好的读物：

情感分析中的词向量学习
从千亿字语料库中无监督地学习语义方位

所以，根据我的说法，LSA是你在这种情况下最好的方法，因为它从语料库中了解了单词之间的潜在关系，也许这就是你想要的。

票数 4

Data Science用户

发布于 2014-07-21 20:42:00

如果我理解你的问题，你可以查看标题后面的术语所形成的共现矩阵，例如高级FOO，主栏等，然后你可以使用合适的度量来计算任意一对术语之间的相似性，比如“高级”和“初级”，例如余弦相似性。

票数 2

Data Science用户

发布于 2014-07-21 16:15:07

不确定这是否正是您要寻找的，但是r-base有一个名为"adist“的函数，它创建了一个近似字符串距离的距离矩阵(根据Levenshtein距离)。输入“？adist”以获得更多信息。

words = c("senior", "primary", "lead", "head", "vp", "director", "stuff", "principal", "chief")
adist(words)

      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
 [1,]    0    6    5    5    6    5    5    7    5
 [2,]    6    0    6    6    7    7    7    6    6
 [3,]    5    6    0    1    4    7    5    8    5
 [4,]    5    6    1    0    4    7    5    8    4
 [5,]    6    7    4    4    0    8    5    8    5
 [6,]    5    7    7    7    8    0    8    8    7
 [7,]    5    7    5    5    5    8    0    9    4
 [8,]    7    6    8    8    8    8    9    0    8
 [9,]    5    6    5    4    5    7    4    8    0

此外，如果R不是选项，Levenshtein距离算法在这里用多种语言实现：http://en.wikibooks.org/wiki/Algorithm_执行/字符串/Levenshtein_距离

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/791

复制

相似问题

问职称相似性
EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问职称相似性EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问职称相似性
EN