优酷每天为上亿用户推荐上亿的视频。一大挑战是机器学习模型如何更好的描述与捕捉用户的兴趣。相比电商、新闻等领域用户对于视频内容的兴趣要更为复杂、感性、微妙、纬度多样,用户的兴趣也会逐渐演进、变化、细分,对于惊喜度(serendipity)与多样性(diversity)的要求也更高。用户的行为数据稀疏、分布偏差大、时域上分布规律也复杂多样。
本分享将介绍优酷对于以上各种技术挑战的思考,实际尝试和采用的,如 CUR、HIN、GRU 等各种方法,包括对于模型如何更好描述与建模用户兴趣,在特征工程、样本采样、目标损失函数抽象、模型融合等方面的经验。
演讲视频
幻灯片