腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
推荐系统与模型算法
专栏成员
举报
1
文章
2469
阅读量
1
订阅数
订阅专栏
申请加入专栏
全部文章(1)
编程算法(1)
学习方法(1)
搜索文章
搜索
搜索
关闭
推荐系统中的Auto Embedding Size算法
编程算法
学习方法
推荐系统的输入特征具有稀疏性、分布差异大的特性,这两个特性决定了AES工作的意义。其中“稀疏性”理解为特征id经过hash化后,往往只占据完整hash表的一部分。比如文章的category,一般是百级别到千级别的,为了避免冲突,我们一般设定hash表的大小是category数量的数倍,这样就会存在着大量没有使用到的表元素。进一步的,对hash表中的元素建立embedding table,也会存在着大量embedding没有被使用。因此,embedding占据了推荐模型中的大部分参数量。而“分布差异大”则表现为,不同field的特征数量往往差别很大,比如对于“性别”只有3个值,而user ID的量级可能是数以亿计。因此,不同的features所携带的信息也是各异的。特别的,对于一些低频的特征,不仅应该设定更小的embedding size,甚至还可能要将其过滤掉以避免出现过拟合;而对于一些高频的特征,不仅本身携带较大的信息量,和其他特征也会有更大的“共现”机会(“共现”的特性可以用来建模交叉特征,这里不做展开讲),因此应该设定更大的embedding size。
独步天下
2021-11-09
2.5K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档