我正在尝试建立一个推荐系统,向用户推荐项目。这就是我想要实现的那种现实生活的例子。但是在我搜索的任何地方,我都会搜索到一个推荐系统,它使用相同的用户-电影评级数据集来解决这个问题,并使用矩阵分解来找出每个用户的潜在因素。但我的数据是不同的,我对如何处理这个问题感到困惑。
我的数据是这样的-
我有4个数据集:
app_metadata
|item_id | category | description |
|--------|-------------------|---------------------------------------------------|
|593676 |HEALTH_AND_FITNESS | Abs Workout, designed by professional fitness ... |
|...
|...
98599 rows × 3 columnsuser_metadata
| uid | device |device_category | state | city | network_type |user_lang| space_available |
|-----|--------|----------------|-------|---------|--------------|---------|-----------------|
|94698|SM-M215F| Mid | Assam |Dibrugarh| 4G | en-US | 94.32 |
|...
|...
294798 rows × 8 columnsapp_installs
| uid | item_id | status | install_date |
|-----|----------|-----------|---------------|
|64190| 593676 |uninstalled| 2022-07-01 |
|...
|...
3767269 rows × 4 columnsapp_usage
| app_use_date | uid |item_id | time_spent|
|--------------|------|--------|-----------|
|2022-07-31 |185459| 601235 | 2180211 |
|...
|...
7569649 rows × 4 columns这些是我拥有的数据集。如何使用所有这4个数据集来构建一个基于模型的用户个性化推荐系统,该系统向用户推荐前5位item_id?任何裁判专家!
发布于 2022-09-12 19:08:36
100 K的应用程序,300 K的用户-相当的任务。
现代排名系统通常由三个阶段组成。
排名系统通常被认为是数据科学中最困难的领域。
一般提示:构建一个功能存储库,这样您就不必一遍又一遍地重新计算功能。让你的时间序列k倍列车测试分裂正确。让你的泄漏检测到位-这不是它是否会发生的问题,而是何时发生的问题;)看看现有的软件。
注:这种方法使我在Kaggle H&M推荐竞争中获得了1%-2%的优势,并被所有顶级竞争对手所采用。
https://datascience.stackexchange.com/questions/114361
复制相似问题