前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >RecSys2020推荐系统特征工程汇总

RecSys2020推荐系统特征工程汇总

作者头像
炼丹笔记
发布2021-05-14 16:06:03
7120
发布2021-05-14 16:06:03
举报
文章被收录于专栏:炼丹笔记

作者:一元,炼丹笔记小编

RecSys2020推荐系统特征工程汇总

背景

这是RecSys2020大会上由NVIDIA一堆大佬所分享的关于推荐系统中特征工程的Tutorial,此处我们抛开相关的加速等模块,直接深入最核心的也是大家最喜欢的特征工程模块,来看看大厂是如何做推荐系统相关的特征工程的。

这是一份非常通用的特征工程技巧手册, RecSys2020推荐大赛冠军的特征工程基本都包含在下面的技术之中。

特征工程技巧

1. 类别特征(Categorical)

常见的策略有三种:

  1. Target Encoding
  2. Count Encoding
  3. Categorifying

2. 非结构化的列表

常采用的特征工程策略为:

  1. Target Encoding
  2. Count Encoding
  3. Categorifying

3. 数值特征

  1. Normalization (mean/std, min/max, log-based, Gauss Rank)
  2. 幂转化(Power transformer)
  3. 分箱(Binning)

4. 时间戳特征

  1. 抽取月/天/星期/是否周末/小时/分钟/秒等特征;
  2. 对时间间隔进行Target encoding
  3. 对时间间隔进行Count Encoding
  4. 基于实践区进行Normalize

5. 时间序列

  1. 基于上一次时间的时间
  2. 时间之间的差值(lag特征)
  3. 在过去1min/5min/30min发生的事件

6. 文本

  1. 抽取关键词;
  2. TF-IDF;
  3. 语言embedding
  4. 长度/质量/复杂度(Complexity)

7. 图像

  1. 图像Embedding;
  2. 分辨率;
  3. 质量;
  4. 光谱;

8. 社交图

  1. 链接分析

9. 地理位置

  1. 距离POI的距离;
  2. 周边的特征;

汇总

参考文献

  1. Tutorial: Feature Engineering for Recommender Systems:https://dl.acm.org/doi/pdf/10.1145/3383313.3411543
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2. 非结构化的列表
  • 3. 数值特征
  • 4. 时间戳特征
  • 5. 时间序列
  • 6. 文本
  • 7. 图像
  • 8. 社交图
  • 9. 地理位置
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档