技术帖:解析今日头条公开的推荐算法

1月11日,北京今日头条总部,一场问诊算法、建言算法的“让算法公开透明”分享会正在进行,雷锋网(公众号:雷锋网)观察到,包括BAT等在内的诸多科技公司算法工程师、产品经理等100多人参与现场讨论。资深算法架构师、中国科学技术大学曹欢欢博士于现场介绍了今日头条的推荐算法原理。

曹欢欢表示,今日头条资讯推荐系统本质上要解决用户、环境和资讯的匹配,要达到这一效果,其算法推荐系统输入三个维度变量:

  • 一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取;
  • 二是用户特征,包括兴趣标签、职业、年龄、性别、机型等,以及很多模型刻画出的用户隐藏兴趣;
  • 三是环境特征,不同的时间不同的地点不同的场景(工作/通勤/旅游等),用户对信息的偏好有所不同。

结合这三方面维度,今日头条的推荐模型做预估,这个内容在这个场景下对这个用户是否合适。

算法推荐要达到不错的效果,需要解决好这四类特征:

  • 相关性特征,解决内容和用户的匹配;
  • 环境特征,解决基础特征和匹配;
  • 热度特征,在冷启动上很有效;
  • 协同特征,考虑相似用户的兴趣,在一定程度上解决所谓算法越推越窄的问题。

但是,曹欢欢表示,点击率、阅读时间、点赞、评论、转发,这些都是可以量化的,但一个大体量的推荐系统,服务用户众多,不能完全由指标评估,引入数据以外的要素也很重要。有些算法可以完成,有些算法还做不到、做的不好,这就需要内容干预。

总之,没有一套通用的模型架构适用所有的推荐场景,头条仍需要一个非常灵活的算法实验平台,这个算法不行,马上试另一个算法,实际上是各种算法的一个复杂组合。据雷锋网了解,西瓜视频、火山小视频、抖音短视频、悟空问答,都在用头条这一套推荐系统,但具体到每套系统,架构都不一样,需要不断去试。

正在基于上文所述反复训练推荐的需要,今日头条有一个世界范围内比较大的在线训练推荐模型,包括几百亿特征和几十亿的向量特征。

但是,完全依赖模型推荐成本过高,因此,今日头条也有简化策略的召回模型——基于召回策略,把一个海量、无法把握的内容库,变成一个相对小、可以把握的内容库,再进入推荐模型。这样有效平衡了计算成本和效果。

曹欢欢表示,在今日头条工作前三年,收到用户反馈最大的一个问题就是——“怎么老给我推重复的?”

曹欢欢解释称,每个人对重复的定义不一样。有人昨天看到一篇讲巴萨的文章,今天又看到两篇,可能就觉得烦了。但对于一个重度球迷来讲,比如巴萨球迷,可能恨不得所有报道都看一遍。要解决这个问题,就需要精确抽取文本特征,比如哪些文章说的是一个事儿,哪些文章基本一样等。而文本特征对于推荐的独特价值就在于,没有文本特征,推荐引擎无法工作,同时,文本特征颗粒度越细,冷启动能力越强。

而语义标签的效果是检查一个公司NLP(自然语言处理)的试金石。

频道、兴趣表达等重要产品功能,需要一个有明确定义、容易被理解的文本标签体系。在隐式语义特征已经可以很好地帮助推荐、做好语义标签需要投入远大于隐式语义特征的情况下,仍需要做好语义标签。

除了用户的自然标签,推荐还需要考虑很多复杂的情况:

  • 1)过滤噪声:过滤停留时间短的点击,打击标题党;
  • 2)惩罚热点:用户在热门文章上的动作做降权处理;
  • 3)时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大;
  • 4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚;
  • 5)考虑全局背景:考虑给定特征的人均点击比例。

现实中,影响推荐效果的因素有很多,需要完备的评估体系,不能只看单一指标,如点击率、留存、收入或是互动,需要看很多指标综合评估:兼顾短期指标和长期指标,兼顾用户指标和生态指标,注意协同效应的影响,有时候需要做彻底的统计隔离等。

那么,所有这些指标可以合成唯一的一个公式吗?“我们苦苦探索了几年,目前还没有做到。”曹欢欢表示。

并且,曹欢欢称,目前很多公司算法做得不好,不是人的问题,而是实验平台的问题。例如A/B Test每次数据都是错的,总上不了线,这个事最后就废了。而一个强大的实验平台,可以实现每天数百个实验同时在线,高效管理和分配实验流量,降低实验分析成本,提高算法迭代效率。

据雷锋网了解,头条现在拥有健全的内容安全机制,除了人工审核团队,还有技术识别,包括风险内容识别技术,构建千万张图片样本集的鉴黄模型,超过百万样本库的低俗模型和谩骂模型等,以及泛低质内容识别技术,曹欢欢强调。

END.

来源:http://www.techug.com/post/jin-ri-tou-tiao-algorithm.html

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2018-01-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

UCSB研究发现计算机与人类视觉差异,用人眼搜索策略提升计算机视觉

【新智元导读】 加州大学圣巴巴拉分校的研究人员发现,当人类在寻找一个特定的物体时,经常容易看漏大小与场景的其余部分不相匹配的物体。他们研究这一现象,试图更好地理...

3797
来自专栏CreateAMind

智能机器的现实风险

当人们问我是干什么的,我常常对回答的深度感到困惑。说“人工智能”我很满意,但太宽泛,而说“图像处理”可能又太具体。然而,一听到接下的来的毫不相干的问题我总是气不...

931
来自专栏AI

停止从头开始编写机器学习算法

从头开始实现算法是我看到初学者犯的最大的错误之一。

2428
来自专栏大数据挖掘DT机器学习

什么是文本挖掘?大数据该挖掘什么?

什么是文本挖掘 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是...

3865
来自专栏小小挖掘机

推荐系统遇上深度学习(十四)--强化学习与推荐系统的强强联合!

之前学习了强化学习的一些内容以及推荐系统的一些内容,二者能否联系起来呢!今天阅读了一篇论文,题目叫《DRN: A Deep Reinforcement Lear...

2393
来自专栏AI研习社

如何在 15 个月内占领 Kaggle 榜首?bestfitting 经验大放送

雷锋网 AI 研习社按:相信玩过 Kaggle 比赛的人都知道 bestfitting,他在加入 Kaggle 社群短短两年之内,就以黑马之姿成功占领比赛排行榜...

1142
来自专栏人工智能头条

专访微软研究院俞栋:基于深度学习的语音识别及CNTK的演进

1945
来自专栏数据科学与人工智能

【数据挖掘】写给新人数据挖掘基础知识介绍

一、数据挖掘技术的基本概念 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数...

26110
来自专栏华章科技

人工智能大拿解答机器学习30个问答

这次参加的是 Yoshua Bengio,计算机科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就是蒙特利尔大学任教,与...

691
来自专栏AI科技大本营的专栏

深度学习(Deep Learning)是否已经让传统的机器学习无用了?

---- 作者: 威廉·沃海思(William Vorhies) 编译: AI100 原文地址: http://www.datasciencecentral....

3376

扫码关注云+社区

领取腾讯云代金券