首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >实现无监督学习推荐系统

实现无监督学习推荐系统
EN

Stack Overflow用户
提问于 2015-01-23 05:25:43
回答 2查看 3.1K关注 0票数 5

我一直在阅读有关推荐系统和构建推荐系统的方法的论文和书籍。在其中的许多案例中,Netflix竞赛就是一个例子。在Netflix上,用户对电影进行评分(从1到5)。在那次比赛中,参赛者被用户提供了一个电影数据库和相应的评分,他们应该实现一个系统,最好地预测电影的评分,并使用该评分向用户推荐电影。

对于评估,他们建议使用使用预测评级和实际评级作为参数的度量进行交叉验证。预测评级是使用用户的历史和他对电影的评级来计算的。

我正在尝试建立一个新闻推荐系统。我现在面临的问题是,新闻只有很短的一段时间是相关的,几乎没有人会给新闻评级。因此,我只有隐式反馈(视图),没有显式反馈(评级)。同样,在Netflix的问题中,它们被提供了一个数据库。我想知道如何处理冷启动问题,因为在开始时没有新闻会被阅读(查看)。

如果你能建议我如何避免冷启动问题,我将非常感激,一旦我有了一个算法,我如何测试它是否工作良好。

谢谢!

EN

回答 2

Stack Overflow用户

发布于 2015-08-03 22:04:36

电影是经典协作过滤的一个很好的用例:它们是人们长期感兴趣的项目,它们相对较少,许多人有重叠的兴趣,并且星级评分是有意义的。新闻故事则完全不同。不是协作过滤,而是基于内容的过滤。这就是人们的兴趣与内容标识符(可以是关于新闻故事的关键字,或者出版商,或者关于一天中的时间或世界区域的元数据)保持一致的地方。视图计数是获取有关人们偏好的信息的最佳选择,它们还允许您使用一些数据挖掘技术,如关联规则挖掘。

虽然您仍然会遇到用户冷启动问题--系统中的新用户没有向您提供有关她的首选项的任何信息,除非您通过挖掘她的tweet或Facebook兴趣或诸如此类的东西来引导它--但您可以避免项目冷启动问题。你可以使用另一个语料库,而不是依赖于通过你的社区阅读的新闻故事作为获取条目相似性的唯一方法。特别是,试试维基百科,看看WikiBrain (https://github.com/shilad/wikibrain)。这是一个API,您可以通过它获得一个概念与另一个概念的相似度,并将其应用于您的推荐需求。

票数 2
EN

Stack Overflow用户

发布于 2015-04-18 22:29:03

为了开始您正在进行的这个项目,我建议使用聚类来查找相关/热门项目的新闻模式。你加入的功能越多,你的结果就越有价值(这部分需要仔细选择,研究和统计分析)。

对于新闻推荐-你可以有分层的方法,所以让我们假设第一部分是扫描‘积极’的文章/包含来自评论文章的人的特定关键字的文章。

然后,也许第二种分层的方法是交叉引用twitter对这篇文章的回应,facebook的点赞/流量,有多少pinterest用户的pinterest pin,等等。

你也可以查看google,bing等的热门关键词。所以这就是如何确保你正在展示的文章是“相关的”

我还建议从小事做起,因为网络上的文章太多了--也许可以关注一个主题,然后对其进行概括。正如你可能注意到的,“文章”的受欢迎程度与人们关注的某些声音有关,所以这是寻找文章相关性的另一种方式。

这里有更多关于无监督学习的信息:http://en.wikipedia.org/wiki/Unsupervised_learning

您可能还想查看期望最大化,以找到哪些变量可以改善您获得的未观察到的数据。以下是对EM https://stats.stackexchange.com/questions/72774/numerical-example-to-understand-expectation-maximization的完整解释

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28098989

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档