我想找出用户标签的语义/相似性。
每个用户最多可以使用四个标签。例如,User-1“机器学习”,“摄影”,“数据科学”,“神经网络”,User-2“机器学习”,“数据科学”,“统计学”,“数学”,User-2“地球物理”,“机器学习”,“艺术和印刷”,“数学”。
标签来自广泛的技能。我想找出标签之间的距离/相似性。例如:“机器学习”,“数据科学”和“神经网络”将彼此接近,同样,“摄影”和“艺术和印刷”将彼此接近。
我在考虑用word2vec。但我在犹豫是否要在生产中使用它,因为我必须用数千种类别的技能集文档来训练它。不仅如此,在现实生活中,用户总是会更改/更新他们的标签。因此,我想构建/开发一个动态算法,该算法将根据用户标签进行调整。
我是机器学习领域的新手。
发布于 2017-07-05 14:39:05
每个标签都可以表示为一个BitMap(BitSet),单个比特表示特定用户是否拥有该标签。然后,您可以使用一些相似性函数,如Jaccard或Ochiai
https://stackoverflow.com/questions/44918222
复制相似问题