前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >我来讲讲实践中的文本内容画像系统

我来讲讲实践中的文本内容画像系统

作者头像
机器学习之禅
发布2022-07-11 14:56:30
4670
发布2022-07-11 14:56:30
举报
文章被收录于专栏:机器学习之禅机器学习之禅

从毕业到现在,恍惚间就是三年多的时间。最初那个懵懂的少年如今已经变成头发稀少,胡茬丰富的大叔。虽然不是一线互联网公司,但是所幸一直在最核心的技术团队做推荐系统相关的事情。

这一篇首先来讲一下我所负责的内容画像。

什么是内容画像呢?

可能很多接触过推荐系统的人更了解用户画像,而对于内容画像却很少了解。因为在各式各样的推荐系统中,都是为不同的内容/产品服务的,在不同的领域差距巨大。举个栗子🌰,做音乐的推荐所谓内容画像可能是音乐的类型,音乐的作曲人,演唱者,音色,音调等等,而做商品推荐可能是商品的价格,性能,品牌等等,而广告推荐则可能是广告的收益之类的东西更具备影响潜力。那么我们做的新闻推荐就不同于这些内容,同时,在信息流或者有人称为feed流,所具备的特殊场景以及大量的文本内容信息,决定了在这个领域做内容画像具备更多的素材可以提取。这中间不仅涉及了机器学习,分类算法,更包括了NLP,各种策略逻辑,规则匹配,还有很多不能说的需求。

来个图。

上面这图呢,大概介绍了内容画像在整个新闻推荐系统中的位置。看起来还是比较重要的一个环节吧。😄

在新闻推荐系统中,内容画像系统,简单来说就是打标签系统。尽管最近人们都希望避免打标签这种行为,但是打标签还是目前最靠谱的呀。所以呢,内容画像系统的本职工作就是为整个推荐系统构建一套完整,丰富的标签,方便后续的各个步骤,不管是推荐,rank还是运营和统计。

在我们这个推荐系统中,首先由抓取系统作为数据的来源,所以不管是真的从合作方抓取的数据,还是自己的编辑运营生产的数据,还是自媒体账号生产的数据,统统都由抓取系统负责获取,作为统一的数据源,进行一些简单粗暴的筛选,生成固定的格式和唯一的文本id。为了规避那些你懂得风险😁,这里面还有一个人工审核的部分,当然先用机器筛选出可能存在风险的文章,然后由人工去决定去留。

当排除掉那些烫手的问题后,文章就来到了内容画像系统。内容画像系统就像是庖丁,把一个完整的文章分割成若干部分,并能够细致的区分出哪些是骨头,哪些是内脏,哪些是牛肉,牛肉里又分为米龙,黄瓜条,牛腱子,牛腩等等。当然我觉得分解一篇文章要比一头牛来的复杂一些,这些区分要如何去识别呢,首先就是要有基础数据的支持。假如没有基础数据,那再锋利的刀🔪也不知道该往哪里切是不是。在这里,首先构建一套完整的关键词提取系统是一个关键。毕竟普通的分词几乎都是基于历史的,对于日新月异的新生词汇几乎是毫无感知。所以,我们这里把分词作为最基本的分词结果,在这个基础上,附加了一套实体词库,热点事件词库,并增加了地域词库,可读词库,可用词库等等去做一些更细致的事情。这些内容可能会在后续的文章中涉及到吧,这里就先简单了解一些好了。

有了这些基础素材,内容画像工作起来就游刃有余了,首先把文章切分成各种词,经过进一步的合并和切割,创造出更多的词。这样就产生了一个基础的文章词向量,基于词向量就可以开始套用各种算法了,譬如分类,聚类等等。再就是从各个维度去考虑能够提取的东西,之后几乎都转化为分类问题去解决,二分类或者多分类,只要训练集够清楚,那效果一般不会太差。基本上数据源稳定之后,经过几轮迭代效果就不会有太大的出入了。这个时候呢,就考虑去增加维度,开发脑洞的时候又到了。所以呢,在我跟大家的不懈努力下,这个item的尺度变得越来越大,嗯,不对 是维度。所以在存储的时候也要考虑一些问题呢,不然数据库要是崩掉就不好玩了。

所以,除了最基本的文章类型,一级分类,二级分类,我们还有做地域分类,隐主题分类,热点事件等等类别的识别,同时还有文章的质量评价分类,这个就属于一个连续分类问题了。这些关于维度的问题等到后续再讲。

获取了这么多的特征维度,接下来当然就是要拿去做推荐了。推荐投放系统通过对文章进行相似度识别,排除掉重复的内容或者主题,排除掉过期文章,排除掉一切需要排除的内容,然后呢把全部数据扔进一个索引池中。做投放的同学则依赖推荐算法去索引池检索出对应的文章序列填充到用户的列表中。当你拿起手机去刷新的时候,就会有符合你的重口味的新闻源源不断的推出来啦。当然,如果你手速太快,可能出现断档的情况,假如你下拉的时候发现通知你暂时没有新内容啦,这个时候你要考虑一下是不是单身太久了。

你看到了新闻,对着你感兴趣的内容啪啪啪,当然这里说的是你在点击手机屏幕啦。你的一切行为就会被记录下来,生成一系列的用户日志,具体有哪些我还是先不介绍了,以后慢慢会说到的。用户画像系统就负责收集和分析用户日志,并跟内容画像的标签体系建立对应关系,从而构建出用户的标签体系来影响推荐投放系统的投放。

这大概就是一个信息流推荐系统的大致流程了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-06-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习之禅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档