首页
学习
活动
专区
工具
TVP
发布

数字化人力资源的从0到N创新实践—技术图谱的相关性高于基于规则分类

一、我们一直在追求确定而准确的数字关系,而数据的自然关系却往往是错乱无序的

这里给出有关员工学习与发展环节中的知识推荐模块的内容,核心的一块内容是分别构建知识和员工的相关标签体系或者特征模型,通过推荐算法进行员工和知识点之间的匹配联系,有关员工的相关标签包含技能标签或者产品标签等等,我们可以通过数据挖掘或者机器学习的手段来挖掘与构建,但有关知识点的标签体系,以往的思考方式则是希望可以构建起知识点之间的强分类信息,但这往往带来几个问题,第一规则分类维护困难与标准的不统一,第二维护的时效性以及专业性要求,第三付出的成本与收益不成比例。

我们通常希望梳理清楚知识点的关系,甚至知识点的难度以及与课程的匹配关系,我们始终在追求尽可能的精确,但这也往往与现实相悖,因为知识点之间的关系本身就是错综交织,也最符合世间万物的错综联系,一篇有关技术的文章中,可能会涉及到很多个知识点,这些知识点可能就是组装关系,并非逻辑意义上的我们希望的层次关系,而且大部分情况下,文本的知识点都是这样的一种自然状态。

我们需要从追求强关系分类到追求相关关系的思维转变。

二、技术图谱的关联逻辑与思路

我们不追求知识点一定要对接到某个分类下面,因为不论是一篇技术文章或者一个视频课程,都是综合了很多维度的知识点,我们可以给文章或视频构建非常丰富的标签,这个标签可以是不同粒度的,通过文本挖掘或标签提取的方式提炼出文章的技术标签,可以通过实体关系挖掘的方式再提炼知识点之间的联系,也可以从专业的技术网站比如CSDN或者ITPUB等等经过专家规则梳理过的知识体系分类,一方面挖掘文章本身的知识点的联系构成图谱,这通常是一种弱关系,另一方面可以补充很多个专家规则梳理过的技术分类,这个分类补需要统一,甚至可能在某些粒度上存在着冲突的情况,比如hadoop有的站点会归结为一级分类存储,二级分类分布式,有的站点可能恰恰相反,归结为一级分类分布式,二级分类存储,但又有什么区别呢?

我们允许不同甚至冲突的技术归结目录的存在,从某些维度划分上其实是合理的,但我们确保构建相同的知识点字典,比如MR或者Mapreduce,虽然等同,但这中间也涉及到消歧或者同义词合并的问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191211A0R07400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券