前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >淘宝上搜索商品,AI如何窥探你的?

淘宝上搜索商品,AI如何窥探你的?

作者头像
用户1594945
发布2019-07-31 14:05:27
5920
发布2019-07-31 14:05:27
举报
文章被收录于专栏:AI启蒙研究院AI启蒙研究院

先说结论:淘宝对每个用户有个精准画像,其中最关键的指标是年龄、性别、购买能力(赤裸裸的欺负人!)。对每个商品有个画像,其中最关键的指标是点击率、价格档位(8档)。以搜索“皮鞋”为例,一开始推荐与用户购买能力匹配的价格档位,如果连续两次点击高价位的“皮鞋”,那么从第三次搜索开始就会发生质的变化,推荐的几乎全是高档“皮鞋”。而且淘宝搜索结果给出的,是最有可能点击或者或者购买的商品。真是目标明确,且看人下菜。

原理分析

淘宝搜索用了强化学习方法,来优化搜索结果排序策略Q。状态s为把用户前2次点击的商品价格档位(0~7,从低到高)作为状态,作为强化学习智能体Agent感知到的状态、动作a是商品排序,对策略的奖励R是用户点击了或者购买了推荐的商品。采用Q-Learning的方法直接对排序策略建模为Q(s,a),该策略更新如下:

具体的参数更新是:

Q-Learning方法不是阿里技术团队的原创,他们只是在里面奖励R上做了一点小创新。这样做的目的是原因是:在淘宝主搜这种大规模应用的场景中,较难在短时间内观察到不同的排序策略在点击和成交这样的宏观指标上的差别。在原始的奖励基础上,加上了一点经验项。

也就表示在状态上执行动作时,PV中所有商品能够被点击(或购买)的似然概率之和。经验项即:

这种奖励方式非常类似在迷宫游戏里,奖励函数不仅仅是在成功逃出迷宫给出一次性奖励,而且在迷宫里每一步都给予一个额外奖励(如距离出口越近奖励越大),引导AI快速逃出迷宫。在这里经验项就是引导用户快快点,快快买。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI启蒙研究院 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档