从零开始接入腾讯云智能推荐

导语: 由于信息过载,推荐系统基本成为互联网产品的标配, 如何快速的让自己的产品具有推荐的能力呢?稀缺专业人员投入、用户数据积累、用户冷启动问题等等都是自建推荐系统必须跨越的障碍。本文介绍如何接入腾讯云智能推荐, 快速获得上百人专业算法团队、二十亿+用户画像、几乎覆盖全部网民的推荐系统能力。

本文介绍如何使用豆瓣图书的openAPI抓取图书信息,上报图书信息、用户浏览点击行为到腾讯云智能推荐系统,通过API获取推荐结果。主要的步骤包括:

  1. 物料准备;
  2. 物料上报;
  3. 场景id申请;
  4. 获取推荐结果;
  5. 用户行为上报;

1. 物料准备

首先介绍下什么物料, 物料就是我们需要推荐的物品。推荐系统通过物料的属性、用户和场景的属性以及用户的历史行为,生产推荐结果。

为了方便的获取物料属性,这里我们使用douban图书API获取图书的基本信息。Api参考:https://developers.douban.com/wiki/?title=book_v2

其中,重要的信息包括:

  • isbn13: 可以作为图书物料的唯一标识;
  • title/author/pubisher: 与图书相关的重要信息;
  • rating: 用户评分;
  • tags: 图书的标签;
  • price: 价格

接下来, 我们购买主机和CDB,使用python脚本遍历豆瓣图书api,我们将感兴趣的属性记录到db中, 获得原始的物料库,如下表所示:

2. 物料上报:

步骤1我们已经获取到了物料库, 接下来通过腾讯云智能推荐item上报API上报物料,API详情参考API文档。

物料上报协议中, 重要的字段包括:

  • item_id:物料唯一标识, 推荐结果将返回物料id, 暂时不支持中文; 图书推荐使用图书的唯一标号isbn13作为item_id;
  • pool_id: 自定义物料池, 物料池将物料分类,在获取推荐结果时,可以指定在哪个物料池获取推荐结果, 适配不同的产品场景。同一个物品可以属于多个物料池; 本示例中, 所有物品都可以出现在任意场景下, 所以, 物料没有指定物料池, 需要分物料池时, 可以添加物料池分类, 重新上传物料信息。
  • tags: 物料的标签, 是物品推荐使用的关键属性,可以使用物品的标签描述、分级类目名、品牌等等信息, 越详细的信息, 对推荐结果越有帮助。 同时, 每个物品的描述应该具有可区分性,在给用户推荐时,如果每个物品都具有相同的tag, 那么, 推荐系统将无法通过这个tag,区分出当前用户对每个物品的喜好, 也就没法产生有效的推荐,所以tag的描述尽量准确、具有区分性。本示例中,标签使用douban提供的tags;

物料上报协议如下所示:

{

       'data_type': 1,

       'tags': u'\u9c81\u8fc5,\u4e2d\u56fd\u6587\u5b66....',

       'bid': 'b_teg_openrecom_xxxx,

       'describe': u '\u9c81\u8fc5\u5168\u96c6(2)',

       'free': 0,

       'item_id': u '9787020015252',

       'MD5': '8764084918781ab51493eaf43e6d0166',

       'url': u 'https://book.douban.com/subject/1002055/',

       'publish': 1,

       'platform': 1,

       'score': 9.5,

       'request_id': '1488358987',

       'vender': u '\u4eba\u6c11\u6587\u5b66\u51fa\u7248\u793e',

       'price': 31.75

}

3. 场景id申请:

智能推荐的所有行为都是围绕场景展开的, 首先上传适合当前场景的物料,接下来, 拉取当前场景下对用户的推荐结果;再上报用户在当前场景的流量、点击、转换等行为数据, 修正推荐结果。 场景可以理解为产品的一个推荐位, 比如很多产品有猜你喜欢的栏目。

可以在腾讯云官网智能推荐控制台创建场景, 获得场景id。 本文规划两个场景: 首页推荐和详情页推荐,申请两个场景id。

4. 获取推荐结果:

物料库上报以后, 就可以通过用户id从物料库中生成推荐结果了。这里使用请求服务接口。注意, 请求服务的地址与物料上报、行为上报地址不同。重要的字段包括:

  • scene_id: 场景id, 步骤3申请的bid;
  • pool_id: 物料池编码, 指定在特定的物料池中选择推荐结果; 如果不指定, 默认在全部物料中选择;
  • cid: 当前页面物料id, 用于详情页获取推荐的场景,cid使用当前物料id。 在本示例中,在详情页场景使用。

推荐结果请求如下所示:

{

       'scene_id': 538659,

       'request_num': 50,

       'uid': '3496892xx',

       'request_id': '1487861252',

       'service_type': 3,

       'bid': 'b_teg_openrecom_xxxx',

       'uid_type': '0',

       'MD5': '05bae728925ee937e760b06669089c27'

}

5. 用户行为上报:

用户行为上报接口, 上报某个时间点、某个场景下、某个用户发生了特定行为。 利用用户行为可以进一步优化推荐结果。 用户行为包括: 曝光、点击、转化、点赞等等; 行为上报时,需要保证事件发生的时间顺序,严格按照先有曝光,点击,再有转化, 否则系统会认为用户点击、转化行为行为无效。重要的字段:

Ø trace_id: 用户一系列行为的会话id。通过trace_id, 推荐系统可以串联用户行为。 trace_id的生命周期从曝光开始,依次在点击、转化、点赞等行为中传递。 下一次曝光需要生成新的trace_id;

协议如下所示:

{

       'uid': '3496892xx',

       'data_type': 2,

       'bid': 'b_teg_openrecom_xxx',

       'item_id': u '9787109061385',

       'scene_id': u '538659',

       'MD5': '8764084918781ab51493eaf43e6d0166',

       'action_time': 1487905960,

       'trace_id': u '1487905944',

       'action_type': 2,

       'request_id': '1487905960',

       'uid_type': '0'

}

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

安斌的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

云服务存在局限性,你如何找到最合适的解决方案

云计算不仅仅代表着近乎无限的资源,我们也需要了解其中可能存在的种种性能问题。 以Amazon AWS与微软Azure为代表的公有云服务属于基于控制台的编排方案,...

3143
来自专栏phodal

自制基于 Snips 和 Snowboy 的智能音箱来保护你的隐私

一步步教你用现有硬件,构建隐私、开源、声控的音箱。 Snips 的团队已经开发了一款开源智能扬声器,它与 Spotify 一起运行。 音箱(或扬声器)专注于音乐...

3149
来自专栏魏艾斯博客www.vpsss.net

DNS 解析和 CDN 加速的区别与联系

5164
来自专栏GIS讲堂

GIS讲堂第一课-开源GIS环境搭建相关内容

昨日下午2点,“GIS讲堂-第一课”-《开源GIS环境搭建相关内容》在众目期待中结束了,下面就本节课的内容给大家做一个汇报,同时也希望没有能够参与到直播的童鞋们...

863
来自专栏杨建荣的学习笔记

insert导致的性能问题大排查(r11笔记第26天)

今天开发的同学小窗口消息给我,向我咨询一个ORA错误的问题。 错误代码是ORA-30036,使用oerr ora 30036查看,由于是undo空间无法扩展导致...

34215
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(144)-物料转移

image.png image.png 库存转移: 物理货物移动 库存转移可以一步或两步完成,或与一个库存转移单相关 移库记帐 改变库存类型,批号或物料号 可...

2595
来自专栏SAP最佳业务实践

SAP最佳业务实践:MM–实际库存/库存盘点和调整(137)-3盘点

4.3 执行库存盘点 仓库主管定期执行库存盘点(手动操作)。 ? 4.4 MI04输入库存盘点 在库存盘点前,使用事务 MMBE 检查物料的库存状况。 角色:仓...

3104
来自专栏开源项目

【码云周刊第 9 期】前方高能,Discuz 官方携神秘干货归来!

每周为您推送最有价值的开源技术内参! 一周热门资讯回顾 1、GitLab 8.17 发布,社区版也支持 GitLab Pages 了 ? GitLab 8.17...

3086
来自专栏机器人网

收藏:自动化工程师教你如何完整做好一个项目

我们学PLC有时候是为了做项目,做项目需要做些什么步骤呢,学习什么知识点,看看老工程师怎么告诉你…… 一.做一个PLC项目的大体流程如下 ❶、熟悉好现场环境和...

2676
来自专栏工作随笔

改VB.NET“偷懒”技巧

【开篇胡侃】虽然搞软件开发很多年了,但似乎从没有动手写过什么(很丢脸的感觉),因为,我的精力都献给了我的其他爱好,比如健身、美食、旅游等等,反而把自己最该专注的...

27313

扫码关注云+社区