星回的实验室-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

星回的实验室

专栏成员

25

文章

45962

阅读量

23

订阅数

在Spark上用LDA计算文本主题模型

python spark java scala

在新闻推荐中，由于新闻主要为文本的特性，基于内容的推荐（Content-based Recommendation）一直是主要的推荐策略。基于内容的策略主要思路是从文本提取出特征，然后利用特征向量化后的向量距离来计算文本间的相关度。这其中应用最广的当属分类（Category）相关和关键词（Keywords/Tag）相关，然而这两种策略却有很多无法覆盖的场景。首先，关键词无法解决同义词和一词多义的问题。比如下面两篇文章的关键词：

2018-08-02

2.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态