我想建立一个推荐系统:
我的想法如下:
在选择编码和距离度量时,我遇到的问题是,只有从二进制到有20个唯一值的问题的值的范畴变量。单热编码有它的缺点与多重共线性,我不确定,因为变量有20个独特的可能性,得到了如此强烈的强调。
有没有人推荐一种可能的方法?非常感谢!
发布于 2022-10-05 02:33:44
在r中有一个名为dprep的包,它包含一个名为knngow()的神奇方法。这是一种KNN算法,它使用gower距离(而不是像欧几里德或曼哈顿那样的物理距离)。
它特别适用于处理转换为二进制或水平因素的名义变量和序数变量,因为它能够管理和区分变量中级别之间的规则间隔,而不受等级的影响。
有一个好的教程或信息的缺乏,但它是一个坚实的步骤,朝着正确的方向,因为它解决了距离困境下的引擎盖。
https://datascience.stackexchange.com/questions/114896
复制相似问题