首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >网页推荐系统

网页推荐系统
EN

Stack Overflow用户
提问于 2012-10-08 09:26:44
回答 2查看 2.8K关注 0票数 6

我正在尝试建立一个推荐系统,它将根据用户的行为向他推荐网页(谷歌搜索,点击,他也可以明确地对网页进行评分)。为了了解谷歌新闻的运作方式,它会在一个特定的主题上显示来自网络的新闻文章。从技术上讲,这就是聚类,但我的目标是相似的。它将是基于用户行为的基于内容的推荐。

所以我的问题是:

  1. 我怎样才能在互联网上找到相关的网页?
  2. 从网页中提取数据的算法是文本分析和词频分析,这是唯一的方法。
  3. 最后,哪个平台最适合这个问题。我听说过,它附带了一些可重用的标志,听起来很合适吗?
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-10-10 21:00:54

正如Thomas所说,你可以写几本关于你的问题的书;-)我会试着给你一个简短的建议清单--但是要知道,不会有现成的解决方案.

  1. 在互联网上爬行:有很多工具箱可以做到这一点,比如、crawler4j和Heritrix,或者是用于Perl的WWW::。要从网页中提取实际内容,请查看boiler导管。 http://scrapy.org/ http://crawler.archive.org/ http://code.google.com/p/crawler4j/ https://metacpan.org/module/WWW::Robot http://code.google.com/p/boilerpipe/
  2. 首先,您通常可以使用协作过滤而不是基于内容的方法。但是,如果你想要有好的报道,特别是在长尾,就没有办法去分析文本。需要考虑的一件事是主题建模,例如LDA。在Mallet、Apache和Vowpal Wabbit中实现了几种LDA方法。对于索引、搜索和文本处理,请查看Lucene。这是一个令人敬畏的,成熟的软件。 http://mallet.cs.umass.edu/ http://mahout.apache.org/ http://hunch.net/~vw/ http://lucene.apache.org/
  3. 除了Apache (也包含LDA (见上文)、集群和文本处理)之外,如果您想专注于协作过滤: LensKit (也是用Java实现的)和MyMediaLite (免责声明:我是主要作者),它是用C#实现的,但也有一个Java端口。 http://lenskit.grouplens.org/ http://ismll.de/mymedialite https://github.com/jcnewell/MyMediaLiteJava
票数 10
EN

Stack Overflow用户

发布于 2012-10-08 11:16:19

这应该是一个很好的阅读:http://dl.acm.org/citation.cfm?id=1242610

它关注的是协作过滤,而不是基于内容的建议,但它触及了一些非常有趣的要点,如可伸缩性、项目流失、算法、系统设置和评估。

Mahout具有非常好的协作过滤技术,这就是您所描述的使用用户行为(单击、读取等)的方法,您可以使用重新编码类介绍一些内容。

您可能还想看看http://myrrix.com/,它在某种程度上是Mahout的味觉(又名推荐)部分的演变。此外,它还允许将基于内容的逻辑应用于使用重新编码类的协作过滤之上。

如果您对Mahout感兴趣,http://manning.com/owen/将是最好的起点。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12778823

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档