个性化推荐系统(一)---今日头条等的内容划分、分类

这篇文章搞头条号、运营知乎等流量的兄弟们可以看看,可以让你了解到你的文章是怎么被推荐的、通过很好的配合头条、知乎等的技术架构、机制可以增加你文章的曝光。

       今日头条以前进入各大app的流量主要被几部分刮分,一个是app内搜索、一个是固定频道、、一个是用户在闲逛。当前各大app、无论是电商、知乎、新闻等流量一部分还是app内部搜索,另外大头就是各大频道、内容、问答板块都被个性化推荐把持。

        今日头条是怎么实现个性化推荐的呢?一个是用户画像,一个是文章分类,分类是由多种纬度组成,通过用户在app内搜索、点击视频、文章、浏览、收藏等app内一些列的操作会不断对用户画像进行完善,并且生成用户对文章分类的喜好,通过喜好给你推荐相似的视频、文章,最终让用户刷不完、离不开。

        最开始冷启动今日头条会推荐给你些八卦、娱乐新闻、热门新闻、其他类型文章等多个池子,因为最开始是没有你的用户画像的,因为你在app内没有行为,通过微博账号登录抓取微博信息进行分析生成画像这种方式暂时不谈。

        个性化推荐系统主体三部分:文章分类、用户画像、用户喜好均是通过用户在app行为,通过数据分析师对数据分析,构建的策略算法,算法工程师构建的模型、以及推荐引擎、特征工程等一系列的算法、工程最终构成一个内容个性化推荐系统。

        这篇主要讲下文章分类主要包含哪些,怎样构建文章分类、分类后怎么使用三个问题。

        当下内容推荐引擎,文章由标签、兴趣、主题、其中标签规模最大,标签

又分为粗标签数据规模亿级别、精标签数据规模千万级别,兴趣数据规模粗几十万级、精十万级、主题几百级。多种类型的分类综合构成文章数据来源。来供feed流使用。

        文章分类构建主要由hadoop、hive、spark、strom等工具实现,标签的构建主要通过对文章进行分词、通过TF-IDF等算法找出文章可以由哪些标签来抽象表达。标签比如:锤子、坚果、老罗,乔布斯、苹果、iPhoneX。标签下文章几百万、几十万、几千不等。兴趣的构建与标签类似但力度更大、更粗些,兴趣比如:星座、二次元、抖音等等。

        主题分类由LDA模型通过spark框架计算实现,主题比如:体育新闻、it新闻、娱乐新闻等构成。

        个性化推荐本质就做一件事:排序。数据计算主要通过hive、spark实现离线的数据排序,排序特征包含曝光量、点击量、点击率、作者权重、文章质量分、等几十个特征综合进行排序,排序结果作为备选集合。光有离线计算是不够的、当下推荐系统更加强调实时性,strom准实时框架会根据实时线上上报特征对文章的排序进行实时调整、比如某大V作者的文章权重很高,排名好获得很多曝光机会,但是曝光机会并转化成点击量、这时strom计算会将文章曝光降低,已给其他文章更多的曝光机会。

        搜索引擎的曝光更加集中、最大的曝光基本集中在首页前三篇,而推荐引擎会拉取多个分类类别、标签下选择用户多个喜好标签下文章、多个兴趣下用户喜好文章、多个主题下用户喜好文章。调取特征、再通过模型实时预估每篇文章点击量,通过点击量预估模型预估文章被当前用户点的几率。

        如果文章在热门的标签下,偏好标签的用户会多,文章排到热门标签前几,那必定会带来特别大的曝光量、但热门标签竞争激烈。冷门标签偏好人少,但是冷门标签下文章会少、竞争少,维护好冷门标签,在固定人群下也会取得持续不错的曝光。

        后边文章会详细写下怎样构建用户画像、构建热门分类、通用分类、用户偏好分类、突发新闻分类召回集、搭建特征工程、构建点击量预估模型过程,以及推荐引擎架构、设计、实现。

      微信搜索:debugme123     

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT大咖说

京东推荐系统中的机器学习与大规模线上实验

摘要 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技...

47580
来自专栏ATYUN订阅号

NVIDIA研究人员利用AI将标准视频转换为高质量慢动作镜头

来自NVIDIA的研究人员开发了一个基于深度学习的系统,该系统可以用每秒30帧的视频制作高质量的慢动作视频,超过了旨在实现相同效果的各种方法。研究人员将在本周C...

12460
来自专栏点滴积累

人工智能入门

前言 这个名字起的非常大,但是本文只能从一些概念和我自己的理解上介绍一下什么是人工智能。本文只是给从未接触过此块的人一个大致的印象和思路,其余人请直接略过。 一...

48070
来自专栏量子位

谷歌再推AI开源平台AI·ON,你有机会参与Bengio的项目了

安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 再次亮相。 首次推出一年后,谷歌又重新推出了AI开源项目讨论合作平台AI·ON(Artificial...

29960
来自专栏新智元

【干货】开发者如何掌握机器学习?传统方法可能都走了弯路

【新智元导读】作为一名开发者,怎么才能加入时下正火热的机器学习?本文作者Jason认为,传统的方法,包括从经典图书、博客文章或线上课程进行学习成效不大,甚至“错...

369160

用于入门的最佳机器学习资源

这是一个非常难写的文章,因为我希望它是真正有价值的。

293100
来自专栏AI派

数据驱动型阿尔法模型在量化交易中的应用

数据驱动型策略一般是指通过使用机器学习算法,数据挖掘技术对选定的数据进行分析来预测未来市场的走向。相比于理论驱动型策略,数据驱动型策略相对难以理解,并且使用的数...

418100
来自专栏机器之心

知乎:源自社区又服务于社区的 AI 技术

每次知乎的技术负责人公开谈及人工智能技术,「智能社区」都是一个绕不开的词汇。然而「智能社区」也是一个相对陌生的概念:如今研究者与工程师们明确了深度神经网络在语音...

13700
来自专栏CSDN技术头条

Facebook开源Torchnet,加速AI研究

近日,Facebook 发表了一篇学术论文和一篇博客帖子详述Torchnet——一个用于简化人工智能——深度学习的新型开源软件。 图片描述 深度学习涉及海量数据...

23090
来自专栏大数据文摘

Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT)

311110

扫码关注云+社区

领取腾讯云代金券