首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

深入了解推荐引擎组件(基于Apache Mahout和Elasticsearch)

其关键部分是基于Apache Mahout的协同过滤算法来建立和训练机器学习模型,以及基于Elasticsearch的搜索技术来简化推荐系统的开发。 什么是推荐?...共同出现(Co-Occurrence)是Apache Mahout可以计算被推荐物品显著性标识的基础。 模型输出指标分数的权重赋值和全文检索引擎背后的数学计算有着相似性。...来自Apache Mahout的物品相似度算法根据用户对电影的已有评分来创建电影推荐的标识符。这些标识符被添加到存储在Elasticsearch的对应电影文件里。...Mahout尤其关注物品是如何在用户历史记录中共同出现的。共同出现是Apache Mahout计算被推荐物品显著性标识的基础。假设Ted喜欢电影A、B和C,Carol喜欢电影A和B。...标识符矩阵 Mahout同时并行地运行多个MapReduce作业来计算物品的共同出现(Mahout 1.0运行在 Apache Spark之上)。

1.6K50

Mahout0.9 打patch使其支持 Hadoop2.2.0

引言 Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本,但很多情况下,由于集群环境的Hadoop已经是2.2.0以上版本,又必须使用Mahout,此时就需要编译源码,使得Mahout...,所以必定有前人已经栽好树了,我们可以在https://issues.apache.org/jira/browse/MAHOUT-1354 里看到4个升级patch,及patch的作者们的详细讨论过程。...步骤一:为Mahout源码打patch 到 http://archive.apache.org/dist/mahout/   或者 https://github.com/apache/mahout/releases...到 https://issues.apache.org/jira/browse/MAHOUT-1354 下载1329-3.patch,拷贝到服务器上。...到源码根目录下执行以下命令打patch: yarn@singletest:~/Mahout/mahout-distribution-0.9$ patch -p0 < ..

31830

Hadoop家族学习路线图

一句话产品介绍: Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。...Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。...Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。 Apache Cassandra:是一套开源分布式NoSQL数据库系统。...Mahout学习路线图 用R解析Mahout用户推荐协同过滤算法(UserCF) RHadoop实践系列之三 R实现MapReduce的协同过滤算法 用Maven构建Mahout项目 Mahout推荐算法...API详解 从源代码剖析Mahout推荐引擎 Mahout分步式程序开发 基于物品的协同过滤ItemCF Mahout分步式程序开发 聚类Kmeans 用Mahout构建职位推荐引擎 Mahout构建图书推荐系统

1.4K80

Hadoop家族学习路线图v

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括... Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。...Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。 Apache Cassandra:是一套开源分布式NoSQL数据库系统。...Mahout学习路线图 用R解析Mahout用户推荐协同过滤算法(UserCF) RHadoop实践系列之三 R实现MapReduce的协同过滤算法 用Maven构建Mahout项目 Mahout推荐算法...API详解 从源代码剖析Mahout推荐引擎 Mahout分步式程序开发 基于物品的协同过滤ItemCF Mahout分步式程序开发 聚类Kmeans 用Mahout构建职位推荐引擎 Sqoop Sqoop

1.7K30

【学习】Hadoop大数据学习线路图

一句话产品介绍: Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。...Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。...Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。 Apache Cassandra:是一套开源分布式NoSQL数据库系统。...Mahout学习路线图 用R解析Mahout用户推荐协同过滤算法(UserCF) RHadoop实践系列之三 R实现MapReduce的协同过滤算法 用Maven构建Mahout项目 Mahout推荐算法...API详解 从源代码剖析Mahout推荐引擎 Mahout分步式程序开发 基于物品的协同过滤ItemCF Mahout分步式程序开发 聚类Kmeans 用Mahout构建职位推荐引擎 Sqoop Sqoop

1.2K60

优秀大数据GitHub项目一览

1.Apache Mahout 我们可以使用Apache Mahout来快速创建高效扩展性又好的机器学习应用。...Apache Mahout支持一个叫做Samsara的数学环境,用户可以在Samsara中使用它提供的常见算法来开发自己的数学解决方案。...Samsara对于线性代数、数据结构和统计操作都有着很好的支持,而且可以通过Scala的Mahout扩展或Mahout库来进行定制。Samara对很多常见算法都进行了重写因此速度上有一定的提升。...Apache Mahout GitHub地址:https://github.com/apache/mahout 2.Apache Spark Apache Spark是一个为实时大数据分析所设计的开源数据处理引擎...Apache Spark GitHub地址:https://github.com/apache/spark 3.Apache Storm Apache Storm的设计针对的是流式数据,不过对于大数据的实时分析它也是很可靠的计算系统

2.1K80

优秀大数据GitHub项目一览

1.Apache Mahout 我们可以使用Apache Mahout来快速创建高效扩展性又好的机器学习应用。...Apache Mahout支持一个叫做Samsara的数学环境,用户可以在Samsara中使用它提供的常见算法来开发自己的数学解决方案。...Samsara对于线性代数、数据结构和统计操作都有着很好的支持,而且可以通过Scala的Mahout扩展或Mahout库来进行定制。Samara对很多常见算法都进行了重写因此速度上有一定的提升。...Apache Mahout GitHub地址:https://github.com/apache/mahout 2.Apache Spark Apache Spark是一个为实时大数据分析所设计的开源数据处理引擎...Apache Spark GitHub地址:https://github.com/apache/spark 3.Apache Storm Apache Storm的设计针对的是流式数据,不过对于大数据的实时分析它也是很可靠的计算系统

1.1K100
领券