文章/答案/技术大牛

发布

问网页推荐系统
EN

Stack Overflow用户

提问于 2012-10-08 09:26:44

回答 2查看 2.8K关注 0票数 6

我正在尝试建立一个推荐系统，它将根据用户的行为向他推荐网页(谷歌搜索，点击，他也可以明确地对网页进行评分)。为了了解谷歌新闻的运作方式，它会在一个特定的主题上显示来自网络的新闻文章。从技术上讲，这就是聚类，但我的目标是相似的。它将是基于用户行为的基于内容的推荐。

所以我的问题是：

我怎样才能在互联网上找到相关的网页？
从网页中提取数据的算法是文本分析和词频分析，这是唯一的方法。
最后，哪个平台最适合这个问题。我听说过，它附带了一些可重用的标志，听起来很合适吗？

machine-learning

mahout

recommendation-engine

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-10-10 21:00:54

正如Thomas所说，你可以写几本关于你的问题的书;-)我会试着给你一个简短的建议清单--但是要知道，不会有现成的解决方案.

在互联网上爬行:有很多工具箱可以做到这一点，比如、crawler4j和Heritrix，或者是用于Perl的WWW：：。要从网页中提取实际内容，请查看boiler导管。 http://scrapy.org/ http://crawler.archive.org/ http://code.google.com/p/crawler4j/ https://metacpan.org/module/WWW::Robot http://code.google.com/p/boilerpipe/
首先，您通常可以使用协作过滤而不是基于内容的方法。但是，如果你想要有好的报道，特别是在长尾，就没有办法去分析文本。需要考虑的一件事是主题建模，例如LDA。在Mallet、Apache和Vowpal Wabbit中实现了几种LDA方法。对于索引、搜索和文本处理，请查看Lucene。这是一个令人敬畏的，成熟的软件。 http://mallet.cs.umass.edu/ http://mahout.apache.org/ http://hunch.net/~vw/ http://lucene.apache.org/
除了Apache (也包含LDA (见上文)、集群和文本处理)之外，如果您想专注于协作过滤: LensKit (也是用Java实现的)和MyMediaLite (免责声明:我是主要作者)，它是用C#实现的，但也有一个Java端口。 http://lenskit.grouplens.org/ http://ismll.de/mymedialite https://github.com/jcnewell/MyMediaLiteJava

票数 10

Stack Overflow用户

发布于 2012-10-08 11:16:19

这应该是一个很好的阅读：http://dl.acm.org/citation.cfm?id=1242610

它关注的是协作过滤，而不是基于内容的建议，但它触及了一些非常有趣的要点，如可伸缩性、项目流失、算法、系统设置和评估。

Mahout具有非常好的协作过滤技术，这就是您所描述的使用用户行为(单击、读取等)的方法，您可以使用重新编码类介绍一些内容。

您可能还想看看http://myrrix.com/，它在某种程度上是Mahout的味觉(又名推荐)部分的演变。此外，它还允许将基于内容的逻辑应用于使用重新编码类的协作过滤之上。

如果您对Mahout感兴趣，http://manning.com/owen/将是最好的起点。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12778823

复制

相似问题

问网页推荐系统
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网页推荐系统EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网页推荐系统
EN