首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >职称相似性

职称相似性
EN

Data Science用户
提问于 2014-07-21 09:00:04
回答 4查看 1.8K关注 0票数 8

我试图在IT领域的职称之间定义一个度量标准。为此,我需要一些没有出现在同一个职称中的职称词之间的度量,例如单词之间的度量。

高级,初级,领导,领导,副总裁,董事,人员,校长,主任,

或者说那些话

分析师,专家,建模师,研究员,科学家,开发人员,工程师,建筑师。

我怎样才能用距离得到所有这些可能的词呢?

EN

回答 4

Data Science用户

发布于 2014-07-21 21:32:12

这是个有趣的问题,谢谢你带我们到这里来。

我认为这个问题类似于我们在情感分析中应用潜在语义分析来找出与某些预定义的正负词有关的极性的正负词列表。

好的读物:

  • 情感分析中的词向量学习
  • 从千亿字语料库中无监督地学习语义方位

所以,根据我的说法,LSA是你在这种情况下最好的方法,因为它从语料库中了解了单词之间的潜在关系,也许这就是你想要的。

票数 4
EN

Data Science用户

发布于 2014-07-21 20:42:00

如果我理解你的问题,你可以查看标题后面的术语所形成的共现矩阵,例如高级FOO,主栏等,然后你可以使用合适的度量来计算任意一对术语之间的相似性,比如“高级”和“初级”,例如余弦相似性。

票数 2
EN

Data Science用户

发布于 2014-07-21 16:15:07

不确定这是否正是您要寻找的,但是r-base有一个名为"adist“的函数,它创建了一个近似字符串距离的距离矩阵(根据Levenshtein距离)。输入“?adist”以获得更多信息。

代码语言:javascript
运行
复制
words = c("senior", "primary", "lead", "head", "vp", "director", "stuff", "principal", "chief")
adist(words)

      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
 [1,]    0    6    5    5    6    5    5    7    5
 [2,]    6    0    6    6    7    7    7    6    6
 [3,]    5    6    0    1    4    7    5    8    5
 [4,]    5    6    1    0    4    7    5    8    4
 [5,]    6    7    4    4    0    8    5    8    5
 [6,]    5    7    7    7    8    0    8    8    7
 [7,]    5    7    5    5    5    8    0    9    4
 [8,]    7    6    8    8    8    8    9    0    8
 [9,]    5    6    5    4    5    7    4    8    0

此外,如果R不是选项,Levenshtein距离算法在这里用多种语言实现:http://en.wikibooks.org/wiki/Algorithm_执行/字符串/Levenshtein_距离

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/791

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档