首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >最近邻推荐系统w/范畴变量

最近邻推荐系统w/范畴变量
EN

Data Science用户
提问于 2022-10-04 12:48:26
回答 1查看 58关注 0票数 1

我想建立一个推荐系统:

  • 在推荐时没有评级,因此只需要一个纯粹基于上下文的推荐系统。
  • 由于输入的特点,问卷的答案是可用的(全部分类)

我的想法如下:

  • 通过适当的距离测量,根据问卷的答案找出最相似的用户。
  • 这些用户过去的建议对系统中的新用户是相关和有意义的。

在选择编码和距离度量时,我遇到的问题是,只有从二进制到有20个唯一值的问题的值的范畴变量。单热编码有它的缺点与多重共线性,我不确定,因为变量有20个独特的可能性,得到了如此强烈的强调。

有没有人推荐一种可能的方法?非常感谢!

EN

回答 1

Data Science用户

发布于 2022-10-05 02:33:44

在r中有一个名为dprep的包,它包含一个名为knngow()的神奇方法。这是一种KNN算法,它使用gower距离(而不是像欧几里德或曼哈顿那样的物理距离)。

它特别适用于处理转换为二进制或水平因素的名义变量和序数变量,因为它能够管理和区分变量中级别之间的规则间隔,而不受等级的影响。

有一个好的教程或信息的缺乏,但它是一个坚实的步骤,朝着正确的方向,因为它解决了距离困境下的引擎盖。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/114896

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档