专栏首页BestSDK今日头条公布算法:解密“垃圾信息”是如何诞生的

今日头条公布算法:解密“垃圾信息”是如何诞生的

“算法分发并非是把所有决策都交给机器,我们会不断纠偏,设计、监督并管理算法模型。”曹欢欢希望这次分享能让更多的人理解算法,并共同参与到算法模型的制定中来。此外,他还重点讲解了今日头条的内容安全机制及相关举措,公开了风险内容识别技术以及泛低质内容识别技术。

中央电视台、新华社、人民日报等媒体机构从业者,和阿里、腾讯、百度、美团、新浪、网易等科技公司的算法工程师、产品经理等100多人,参加了活动。

1.

资讯推荐系统本质上要解决用户、环境和资讯的匹配。

今日头条算法推荐系统,主要输入三个维度的变量。

一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取。二是用户特征,包括兴趣标签、职业、年龄、性别、机型等,以及很多模型刻画出的用户隐藏兴趣。三是环境特征,不同的时间不同的地点不同的场景,用户对信息的偏好有所不同。

2.

点击率、阅读时间、点赞、评论、转发,这些都是可以量化的。但一个大体量的推荐系统,服务用户众多,不能完全由指标评估,引入数据以外的要素,也很重要。有些算法可以完成,有些算法还做不到、做的不好,这就需要内容干预。

3.

没有一套通用的模型架构,适用所有的推荐场景。我们需要一个非常灵活的算法实验平台,这个算法不行,马上试另一个算法,实际上是各种算法的一个复杂组合。西瓜视频、火山小视频、抖音短视频、悟空问答,都在用头条这一套推荐系统,但具体到每套系统,架构都不一样,需要不断去试。

4.

算法推荐要达到不错的效果,需要解决好这四类特征:相关性特征、环境特征、热度特征和协同特征。

相关性特征,解决内容和用户的匹配。环境特征,解决基础特征和匹配。热度特征,在冷启动上很有效。协同特征,考虑相似用户的兴趣,在一定程度上解决所谓算法越推越窄的问题。

5.

今日头条有一个世界范围内比较大的在线训练推荐模型,包括几百亿特征和几十亿的向量特征。

完全依赖模型推荐成本过高,因此有了简化策略的召回模型。基于召回策略,把一个海量、无法把握的内容库,变成一个相对小、可以把握的内容库,再进入推荐模型。这样有效平衡了计算成本和效果。

6.

在今日头条工作前三年,我收到用户反馈最大的一个问题,就是,“怎么老给我推重复的?”

其实,每个人对重复的定义不一样。有人昨天看到一篇讲巴萨的文章,今天又看到两篇,可能就觉得烦了。但对于一个重度球迷来讲,比如巴萨的球迷,可能恨不得所有的报道都看一遍。解决这个,实际上需要精确抽取文本特征,比如哪些文章说的是一个事儿,哪些文章基本一样等等。

文本特征对于推荐的独特价值在于,没有文本特征,推荐引擎无法工作,同时,文本特征颗粒度越细,冷启动能力越强。

7.

语义标签的效果,是检查一个公司NLP的试金石。

频道、兴趣表达等重要产品功能,需要一个有明确定义、容易理解的文本标签体系。所以,在隐式语义特征已经可以很好地帮助推荐,且做好语义标签需要投入远大于隐式语义特征的情况下,我们仍然需要做好语义标签。

8.

除了用户的自然标签,推荐还需要考虑很多复杂的情况:

1)过滤噪声:过滤停留时间短的点击,打击标题党;2)惩罚热点:用户在热门文章上的动作做降权处理;3)时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大;4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征考虑全局背景:考虑给定特征的人均点击比例。

9.

比起批量计算用户标签,采用流式计算框架,可以大大节省计算机资源,可以准实时完成用户兴趣模型的更新。几十台机器就可以支撑每天数千万用户的兴趣模型更新,99%的用户可以实现发生动作后10分钟模型更新。

10.

影响推荐效果的因素有很多,我们需要一个完备的评估体系,不能只看单一指标,点击率、留存、收入或是互动,我们需要看很多指标,做综合评估:兼顾短期指标和长期指标,兼顾用户指标和生态指标,注意协同效应的影响,有时候需要做彻底的统计隔离等。

有人问,所有的这些指标,能合成唯一的一个公式吗?我们苦苦探索了几年,目前还没有做到。

11.

头条现在拥有健全的内容安全机制。除了人工审核团队,我们还有技术识别。包括风险内容识别技术,构建千万张图片样本集的鉴黄模型,超过百万样本库的低俗模型和谩骂模型等,以及泛低质内容识别技术。

我们一直按行业最高的标准要求自己。

本文分享自微信公众号 - BestSDK(bestsdk)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 什么样的大数据平台架构,才是最适合你的?

    技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径。   它不一定具有通用性,但从一定程度讲,这个架构...

    BestSDK
  • 微软发布Power BI Premium:提供统一API接口,对免费版服务进行简化

    自2015年7月正式发布以来,Power BI的愿景就是让身处各个职位、部门和行业的用户能在几秒钟内享受到Power BI带来的便利,并在几分钟内从数据中获取洞...

    BestSDK
  • 目前深度学习最强框架——PyTorch

    PyTorch由于使用了强大的GPU加速的Tensor计算(类似numpy)和基于磁带的自动系统的深度神经网络。这使得今年一月份被开源的PyTorch成为了深度...

    BestSDK
  • 竞赛专题(四)特征工程-竞赛中的必杀技

    为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP...

    Datawhale
  • 关于物联网的沉思:我现在是一个“事物”

    这是官方声明,我现在是物联网上的一个“事物”(I am now a ‘thing’ on the Internet of Things)!

    xun珣
  • 【学习】关于推荐系统中的特征工程

    在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞featu...

    小莹莹
  • 深度解析京东个性化推荐系统演进史

    在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。 京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年,当时的推荐...

    用户1263954
  • 深度解析京东个性化推荐系统

    在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。

    机器学习AI算法工程
  • 深度解析京东个性化推荐系统演进史!

    在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。

    Java后端技术
  • 一线互联网智能推荐系统架构演进

    作者:fisherman,时任推荐部门推荐系统负责人,负责推荐部门的架构设计及相关研发工作。Davidxiaozhi,时任推荐部门推荐系统架构师,负责推荐系统的...

    架构师小秘圈

扫码关注云+社区

领取腾讯云代金券