我试图在IT领域的职称之间定义一个度量标准。为此,我需要一些没有出现在同一个职称中的职称词之间的度量,例如单词之间的度量。
高级,初级,领导,领导,副总裁,董事,人员,校长,主任,
或者说那些话
分析师,专家,建模师,研究员,科学家,开发人员,工程师,建筑师。
我怎样才能用距离得到所有这些可能的词呢?
发布于 2014-07-21 21:32:12
这是个有趣的问题,谢谢你带我们到这里来。
我认为这个问题类似于我们在情感分析中应用潜在语义分析来找出与某些预定义的正负词有关的极性的正负词列表。
好的读物:
所以,根据我的说法,LSA是你在这种情况下最好的方法,因为它从语料库中了解了单词之间的潜在关系,也许这就是你想要的。
发布于 2014-07-21 20:42:00
如果我理解你的问题,你可以查看标题后面的术语所形成的共现矩阵,例如高级FOO,主栏等,然后你可以使用合适的度量来计算任意一对术语之间的相似性,比如“高级”和“初级”,例如余弦相似性。
发布于 2014-07-21 16:15:07
不确定这是否正是您要寻找的,但是r-base有一个名为"adist“的函数,它创建了一个近似字符串距离的距离矩阵(根据Levenshtein距离)。输入“?adist”以获得更多信息。
words = c("senior", "primary", "lead", "head", "vp", "director", "stuff", "principal", "chief")
adist(words)
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
[1,] 0 6 5 5 6 5 5 7 5
[2,] 6 0 6 6 7 7 7 6 6
[3,] 5 6 0 1 4 7 5 8 5
[4,] 5 6 1 0 4 7 5 8 4
[5,] 6 7 4 4 0 8 5 8 5
[6,] 5 7 7 7 8 0 8 8 7
[7,] 5 7 5 5 5 8 0 9 4
[8,] 7 6 8 8 8 8 9 0 8
[9,] 5 6 5 4 5 7 4 8 0此外,如果R不是选项,Levenshtein距离算法在这里用多种语言实现:http://en.wikibooks.org/wiki/Algorithm_执行/字符串/Levenshtein_距离
https://datascience.stackexchange.com/questions/791
复制相似问题