前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >YoutubeNet的数据答疑

YoutubeNet的数据答疑

作者头像
sladesal
发布2018-10-22 15:58:04
7550
发布2018-10-22 15:58:04
举报
文章被收录于专栏:机器学习之旅机器学习之旅

实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。

这边和大家说一下,我没有上传数据的原因有两个:

  • 涉及公司的数据财产,不方便上传
  • 懒得做脱敏处理
  • 数据一共有1300多万条,传输实在不方便

主要数据处理的部分在map_id_idx.py脚本下,其中包含all_item_20180624.txt和click_thirty_day_data_20180609.txt两个数据集合。

其中,all_item_20180624.txt是当日所有的商品集合:包含'Prd_Id', 'ItemId', 'BrandId', 'MsortId'和‘GenderId'五列,分别代表着商品id,skuid,低级品牌id,中级品牌id,产品性别,最后形如:

代码语言:javascript
复制
5675    50000055    175 1500    3
2577    50000056    187 66  3
2002    50000057    63  11  2
2007    50000058    137 58  3
2075    50000060    80  50  3
2348    50000061    138 16  2
423 50000062    162 237 3
469 50000063    10  1500    3
1102    50000064    176 11  1
1896    50000066    37  27  1
2489    50000067    27  44  1
...

click_thirty_day_data_20180609.txt为近三十天的用户点击流,包含'UId', 'ItemId', 'clickTime'三列,分别代表着uid、点击的skuid,点击时间,最后形如:

代码语言:javascript
复制
34  51668064    1528602406
34  51890512    1528788389
34  51884724    1528788393
34  51884720    1528788399
34  51884718    1528788414
34  51580974    1528788442
34  51854970    1528788487
34  51514910    1528788499
34  51855000    1528788535
34  51854990    1528788569
34  51854998    1528788572
...

通过map_id_idx.py对所有的商品进行标序号,然后带入用户的点击流中,方便后期做embedding操作,就酱。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.10.16 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档