开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark生成发生矩阵

是指使用Apache Spark框架进行大规模数据处理和分析时，通过Spark的机器学习库MLlib生成一个随机矩阵的过程。

随机矩阵是一种数学工具，用于表示和处理大规模数据集。它可以用于各种机器学习和数据分析任务，如降维、特征选择、聚类等。Spark生成发生矩阵的过程是通过指定矩阵的行数、列数和元素的分布概率来生成一个随机矩阵。

优势：

高性能：Spark框架具有分布式计算的能力，可以并行处理大规模数据集，提供高性能的数据处理和分析能力。
可扩展性：Spark可以在集群中运行，可以根据需要增加或减少计算资源，实现弹性扩展，适应不同规模的数据处理需求。
多功能性：Spark提供了丰富的机器学习和数据分析库，可以支持各种数据处理和分析任务，包括生成发生矩阵。
易用性：Spark提供了简洁的API和丰富的文档，使开发人员可以快速上手并进行开发工作。

应用场景：

推荐系统：生成发生矩阵可以用于构建用户-物品的关联矩阵，用于推荐系统中的用户个性化推荐。
数据降维：生成发生矩阵可以用于降维算法，如主成分分析（PCA），用于减少数据维度，提高数据处理和分析效率。
数据聚类：生成发生矩阵可以用于聚类算法，如K均值聚类，用于将数据集划分为不同的类别。

腾讯云相关产品：腾讯云提供了一系列与大数据处理和分析相关的产品和服务，以下是一些推荐的产品和产品介绍链接地址：

腾讯云Spark：https://cloud.tencent.com/product/spark
腾讯云机器学习平台：https://cloud.tencent.com/product/tiia
腾讯云数据仓库：https://cloud.tencent.com/product/dws
腾讯云大数据分析平台：https://cloud.tencent.com/product/dcap

请注意，以上仅为腾讯云相关产品的示例，其他云计算品牌商也提供类似的产品和服务。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

基于Spark的机器学习实践 (二) - 初识MLlib

MLlib是Spark的机器学习（ML）库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说，它提供了以下工具：

04

基于Spark的机器学习实践 (二) - 初识MLlib

MLlib是Spark的机器学习（ML）库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说，它提供了以下工具：

02

PySpark初级教程——第一步大数据分析(附代码实现)

我们正在以前所未有的速度生成数据。老实说，我跟不上世界各地里产生的巨大数据量!我敢肯定你已经了解过当今时代数据的产量。McKinsey, Gartner, IBM,等公司都给出了他们公司的数据。

02

深入机器学习系列之：ALS

ALS是交替最小二乘（alternating least squares）的简称。在机器学习中，ALS特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给商品的打分，来推断每个用户的喜好并向用户推荐适合的商品。举个例子，我们看下面一个8*8的用户打分矩阵

02

助力工业物联网，工业大数据之数仓维度层DWS层构建【十二】

01

Apache Hudi 架构设计和基本概念

Apache Hudi是一个Data Lakes的开源方案，Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi具有如下基本特性/能力：

02

SparkMLlib的数据类型讲解

SparkMLlib的数据类型讲解 Mllib支持单机上存储的本地向量和矩阵，也支持由一个或者多个RDD支持的分布式矩阵。本地向量和本地矩阵是简单的数据模型，用作公共接口。由Breeze提供基本的线性代数运算。。在监督学习中使用的训练示例在MLlib中被称为“labeled point” 一本地向量本地向量存储于单台机器，其拥有整类型的行，从0开始的索引，和double类型的值。Mllib支持两种类型的本地向量:密集向量(dense)和稀疏向量(sparse)。密集向量只有一个浮点数组组成，而一个稀疏向

07

深入机器学习系列10-ALS

交换最小二乘 📷 1 什么是ALSALS是交替最小二乘（alternating least squares）的简称。在机器学习中，ALS特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给商品的打分，来推断每个用户的喜好并向用户推荐适合的商品。举个例子，我们看下面一个8*8的用户打分矩阵。 📷 这个矩阵的每一行代表一个用户（u1,u2,…,u8）、每一列代表一个商品（v1,v2,…,v8）、用户的打分为1-9分。这个矩阵只显示了观察到的打分，我们需要推测没有观察到的打分。比如（u6，v5）打

06

大数据测试学习笔记之基准测试HiBench

简介 HiBench是一套基准测试套件，用于帮助我们评估不同的大数据框架性能指标（包括处理速度、吞吐等）的负载指标，可以评估Hadoop、Spark和流式负载等，具体的工作负载有： Sort WordCount TeraSort Sleep SQL PageRank Nutch indexing Bayes Kmeans NWeight enhanced DFSIO 等等同样的它还可以用于评估Spark Stream、Flink、Storm和Gearpump。工作负载对这些工作负载进行分类记录如下，总

06

TDW千台Spark千亿节点对相似度计算

相似度计算在信息检索、数据挖掘等领域有着广泛的应用，是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长，对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度计算会引入大量的网络开销，导致性能低下。我们借助于Spark对内存计算的支持以及图划分的思想，大大降低了网络数据传输量；并通过在系统层次对Spark的改进优化，使其可以稳定地扩展至上千台规模。本文将介绍腾讯TDW使用千台规模的Spark集群来对千亿量级的节点对进行相似度计算这个案例，通过实验对比，我

2 Spark机器学习 spark MLlib Statistics统计入门

在机器学习中，数据的处理也非常重要，矩阵、统计什么的都很常见。这一篇看一下Statistics统计相关的操作。

02

【推荐系统算法实战】 ALS 矩阵分解算法

ALS的矩阵分解算法常应用于推荐系统中，将用户(user)对商品(item)的评分矩阵，分解为用户对商品隐含特征的偏好矩阵，和商品在隐含特征上的映射矩阵。

02

Apache Spark 1.5新特性介绍

Apache Spark社区刚刚发布了1.5版本，大家一定想知道这个版本的主要变化，这篇文章告诉你答案。 DataFrame执行后端优化（Tungsten第一阶段） DataFrame可以说是整个Spark项目最核心的部分，在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM，这样可以避免JVM GC带来的性能损失。内存中的Java对象被存储成Spark自己的二进制格式，计算直接发生在二进制格式上，省去了序列化和反序列化时间。同时

09

Apache Spark 1.5新特性介绍

作者：梁堰波现就职于明略数据,开源爱好者,Apache Hadoop & Spark contributor。曾任职于法国电信研究员,美团网技术专家,Yahoo!工程师,具备丰富的数据挖掘和机器学

09

分布式系统下的纠删码技术（一） — Erasure Code (EC)

近几个月主要参与一个分布式存储系统的纠删码部分（用于数据容错），纠删码在学术界出现比较早，现在ceph，微软的存储系统，Hadoop 3.0等都用了EC。文章会分为多篇，主要将Erasure Code，LRC, 以及相关的数学基础，作为学习总结。

02

CountVectorizer

CountVectorizer 关于文本特征提取，前面一篇文章TF-IDF介绍了HashingTF，本文将再介绍一种Spark MLlib的API CountVectorizer。 CountVectorizer 和 CountVectorizerModel 旨在帮助将文本文档集合转化为频数向量。当先验词典不可用时，CountVectorizer可以用作Estimator提取词汇表，并生成一个CountVectorizerModel。该模型会基于该字典为文档生成稀疏矩阵，该稀疏矩阵可以传给其它算法，比如

07

大数据技术之_28_电商推荐系统项目_02

离线推荐服务建设 + 实时推荐服务建设 + 基于隐语义模型的协同过滤推荐（相似推荐）+ 基于内容的协同过滤推荐（相似推荐）+ 基于物品的协同过滤推荐（相似推荐）

02

【Spark Mllib】性能评估 ——MSE/RMSE与MAPK/MAP

均方差（MSE），就是对各个实际存在评分的项，pow（预测评分-实际评分，2）的值进行累加，在除以项数。而均方根差（RMSE）就是MSE开根号。

03

Spark机器学习实战 (十二) - 推荐系统实战

将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。

04

Spark机器学习实战 (十二) - 推荐系统实战

将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。

03

大数据测试学习笔记之Python工具集

这是2018年度业余主要学习和研究的方向的笔记：大数据测试整个学习笔记以短文为主，记录一些关键信息和思考预计每周一篇短文进行记录，可能是理论、概念、技术、工具等等学习资料以IBM开发者社区、华为开发者社区以及搜索到的相关资料为主我的公众号：开源优测大数据测试学习笔记之Python工具集简介在本次笔记中主要汇总Python关于大数据处理的一些基础性工具，个人掌握这些工具是从事大数据处理和大数据测必备技能主要工具有以下（包括但不限于）： numpy pandas SciPy Scikit-L

06

特征工程（下）- 特征评估

作者会在本文中结合自己在视频推荐方面的工作经验，着重从工程实现方面，讲述如何对特征进行评估的问题。下文中，我们首先会厘清“特征评估”的概念，然后讲述特征评估的标准，最后是问题的反向排查。

02

推荐算法｜矩阵分解模型

导读：在《推荐算法概述》一文中，我们介绍了推荐算法分为基于用户、基于物品、基于模型的协同过滤方法，矩阵分解模型是典型的基于模型的方法之一，本文将从基本概念、原理、实践几个角度进行介绍。

01

【工具】Apache Spark 1.5发布了！！！

Apache Spark社区刚刚发布了1.5版本，大家一定想知道这个版本的主要变化，这篇文章告诉你答案。 DataFrame执行后端优化（Tungsten第一阶段） DataFrame可以说是整个Spark项目最核心的部分，在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM，这样可以避免JVM GC带来的性能损失。内存中的Java对象被存储成Spark自己的二进制格式，计算直接发生在二进制格式上，省去了序列化和反序列化时间。同

06

案例：Spark基于用户的协同过滤算法

一基于用户协同过滤简介基于用户的协同过滤算法(user-based collaboratIve filtering) 基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买，收藏，内容评论或分享)，并对这些喜好进行度量和打分。根据不同用户对相同商品或内容的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行商品推荐。简单的说就是如果A,B两个用户都购买了x,y,z三本图书，并且给出了5星的好评。那么A和B就属于同一类用户。可以将A看过的图书w也推荐给用户B。 Spa

06

【技术分享】交换最小二乘

ALS是交替最小二乘（alternating least squares）的简称。在机器学习中，ALS特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给商品的打分，来推断每个用户的喜好并向用户推荐适合的商品。举个例子，我们看下面一个8*8的用户打分矩阵。

04

如何将RDD或者MLLib矩阵zhuanzhi

最近老有人在qq群或者公众号留言问浪尖如何将Spark Mllib的矩阵或者将一个RDD进行转置操作。Spark Mllib的矩阵有多种形式，分布式和非分布式，非分布式在这里浪尖就不讲了，很简单，因为他是基于数组的。而分布式存储是基于RDD的，那么问题就又变成了如何将一个RDD进行转置。首先我们来介绍一下什么是转置操作：百科上的定义，将一个矩阵的行列互换得到的矩阵就是该矩阵的转置。要想把一个RDD的行列互换的话，主要思路如下： 1，先转化RDD，给每一行带上唯一的行号(row, rowIndex

09

练习题︱ python 协同过滤ALS模型实现：商品推荐 + 用户人群放大

之前的一个练习题：练习题︱豆瓣图书的推荐与搜索、简易版知识引擎构建（neo4j）提及了几种简单的推荐方式。但是在超大规模稀疏数据上，一般会采用一些规模化的模型，譬如spark-ALS就是其中一款。这边，笔者也是想调研一下这个模型的操作性，所有就先用单机版的测试一下；对应的spark.mlib有分布式的版本。

02

Spark 1.3更新概述：176个贡献者，1000+ patches

近日，Databricks正式发布Spark 1.3版本。在此版本中，除下之前我们报道过的DataFrame API，此次升级还覆盖Streaming、ML、SQL等多个组件。当下，1.3版本已在 Apache Spark页面提供下载，下面一起浏览 Patrick Wendell在Databricks Blog上对Spark 1.3版本的概括。 Spark SQL脱离Alpha版本在1.3版本中，Spark SQL正式脱离Alpha版本，提供了更好的SQL标准兼容。同时，Spark SQL数据源AP

04

基于Spark的大数据热图可视化方法

针对普通客户端浏览和分析大数据困难的问题, 结合 Spark 和 LOD 技术, 以热图为例提出一种面向大数据可视化技术框架. 首先利用 Spark 平台分层并以瓦片为单位并行计算, 然后将结果分布式存储在 HDFS 上, 最后通过web 服务器应用Ajax技术结合地理信息提供各种时空分析服务.文中重点解决了数据点位置和地图之间的映射, 以及由于并行计算导致的热图瓦片之间边缘偏差这2个问题.实验结果表明,该方法将数据交互操作与数据绘制和计算任务分离, 为浏览器端大数据可视化提供了一个新的思路.

02

ANGEL：一个新型的分布式机器学习系统

引自:http://www.ccf.org.cn/c/2017-08-16/603621.shtml

03

深入理解Spark ML：基于ALS矩阵分解的协同过滤算法与源码分析

随着互联网的迅猛发展,为了满足人们在繁多的信息中获取自己需要内容的需求,个性化推荐应用而生。协同过滤推荐是其中运用最为成功的技术之一。其中,基于用户的最近邻法根据相似用户的评分来预测当前用户的评分。然而,在用户数量以及用户评分不足的情况下,该方法存在冷启动和数据稀疏的问题。为了解决这两个问题，业界提出了提出了基于项的最近邻法，利用项之间相似性稳定的特点可以离线计算相似性,降低了在线计算量,提高了推荐效率,但同样存在冷启动和数据稀疏问题。若使用矩阵分解中的奇异值分解 ( Singular Value Decomposition,SVD) 减少评分矩阵的维数,之后应用最近邻法预测评分,一定程度上解决了同义词问题,但由于评分矩阵中大部分的评分是分解之前填充的,所以得到的特征矩阵不能直接用于评分。业界还提出了一种基于矩阵分解和用户近邻模型的算法,解决了数据稀疏的问题,但存在模型过拟合的问题。而协同过滤提出了一种支持不完整评分矩阵的矩阵分解方法,不用对评分矩阵进行估值填充,有很好的推荐精度。在 Netflix推荐系统竞赛中的应用表明,该矩阵分解相对于其他的推荐算法能产生更精确的推荐。[1 2][1 2]^{[1~2]}

04

用Spark学习矩阵分解推荐算法

在矩阵分解在协同过滤推荐算法中的应用中，我们对矩阵分解在推荐算法中的应用原理做了总结，这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。

03

基于Spark的机器学习实践 (十) - 降维

通过讲解PCA算法的原理，使大家明白降维算法的大致原理，以及能够实现怎么样的功能。结合应用降维算法在分类算法使用之前进行预处理的实践，帮助大家体会算法的作用。

00

基于Spark的机器学习实践 (十) - 降维

通过讲解PCA算法的原理，使大家明白降维算法的大致原理，以及能够实现怎么样的功能。结合应用降维算法在分类算法使用之前进行预处理的实践，帮助大家体会算法的作用。

02

大数据驱动的实时文本情感分析系统：构建高效准确的情感洞察【上进小菜猪大数据】

随着互联网的快速发展和大数据技术的不断成熟，用户推荐系统在各个应用领域变得越来越重要。本文将介绍如何利用大数据技术构建一个实时用户推荐系统。我们将通过结合Apache Kafka、Apache Spark和机器学习算法，实现一个高效、可扩展且准确的推荐系统。同时，本文还将提供具体的代码实例和技术深度解析，帮助读者更好地理解和实践。

01

结合Flink，国内自研，大规模实时动态认知图谱平台——AbutionGraph |博文精选

AbutionGraph：北京图特摩斯科技自研的国内首个准实时多维图形数据库，首个将实时/离线/指标聚合/图挖掘/AI框架等热门技术线深度整合在一起的认知图谱平台，本文仅对实时性的相关优势做分析。

01

大数据技术之_24_电影推荐系统项目_06_项目体系架构设计 + 工具环境搭建 + 创建项目并初始化业务数据 + 离线推荐服务建设 + 实时推荐服务建设 + 基于内容的推荐服务建设

用户可视化：主要负责实现和用户的交互以及业务数据的展示，主体采用 AngularJS2 进行实现，部署在 Apache 服务上。（或者可以部署在 Nginx 上）综合业务服务：主要实现 JavaEE 层面整体的业务逻辑，通过 Spring 进行构建，对接业务需求。部署在 Tomcat 上。【数据存储部分】业务数据库：项目采用广泛应用的文档数据库 MongDB 作为主数据库，主要负责平台业务逻辑数据的存储。搜索服务器：项目采用 ElasticSearch 作为模糊检索服务器，通过利用 ES 强大的匹配查询能力实现基于内容的推荐服务。缓存数据库：项目采用 Redis 作为缓存数据库，主要用来支撑实时推荐系统部分对于数据的高速获取需求。【离线推荐部分】离线统计服务：批处理统计性业务采用 Spark Core + Spark SQL 进行实现，实现对指标类数据的统计任务。离线推荐服务：离线推荐业务采用 Spark Core + Spark MLlib 进行实现，采用 ALS 算法进行实现。工作调度服务：对于离线推荐部分需要以一定的时间频率对算法进行调度，采用 Azkaban 进行任务的调度。【实时推荐部分】日志采集服务：通过利用 Flume-ng 对业务平台中用户对于电影的一次评分行为进行采集，实时发送到 Kafka 集群。消息缓冲服务：项目采用 Kafka 作为流式数据的缓存组件，接受来自 Flume 的数据采集请求。并将数据推送到项目的实时推荐系统部分。实时推荐服务：项目采用 Spark Streaming 作为实时推荐系统，通过接收 Kafka 中缓存的数据，通过设计的推荐算法实现对实时推荐的数据处理，并将结果合并更新到 MongoDB 数据库。

05

【技术分享】隐式狄利克雷分布

LDA是一种概率主题模型：隐式狄利克雷分布（Latent Dirichlet Allocation，简称LDA）。LDA是2003年提出的一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出。通过分析一些文档，我们可以抽取出它们的主题（分布），根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

02

机器学习实践：用 Spark 和 DBSCAN 对地理定位数据进行聚类

【新智元导读】数据专家 Natalino Busa 在本文中讨论了如何从大量的定位事件中获取用户的活动区域来构建基于位置的服务。他经过论证得出，DBSCAN算法与Spark的结合似乎是一种很有前途的方法，可以抽取准确的地理位置模式，并用于开发基于各种场景的数据驱动、基于位置的应用程序，例如个性化营销、欺诈防范和内容过滤。机器学习，特别是聚类算法，可以用来确定哪些地理区域经常被一个用户访问和签到而哪些区域不是。这样的地理分析使多种服务成为可能，比如基于地理位置的推荐系统，先进的安全系统，或更通常来说，提供更

08

一位算法师工程师的Spark机器学习笔记：构建一个简单的推荐系统

推荐引擎应用场景： .用户有海量选择：随着场景内item越来越多，用户越来越难以选择到合适的产品 .个性化场景：在选择产品时，会借鉴那些与推荐用户相似地群体，利用群体智慧对用户进行推荐”千人千面” 在本篇博客中，会涉及到以下几个部分： .介绍不同类型的推荐引擎 .使用用户偏好模型来构造推荐模型 .使用训练好的模型来为指定user计算给定item的相似度大的items .使用标准的评测函数来构造推荐模型的好坏推荐模型类别： .基于item的过滤：使用item的内容或者属性，选择给定item的相似的item

07

SparkMllib介绍

1-ML算法，包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法 2-特征化：特征抽取、特征转换、特征选择、特征降维 3-管道Pipeline：将数据处理或特征工程的流程按照管道的方式去串联 4-持久化Persistence：保存模型，保存管道如何理解保存模型？原因就是不可能每次都去训练模型，而将已经训练好的模型进行保存，保存在本地或hdfs中，在本地或hdfs中加载已经训练好点模型，直接可以做预测分析 5-工具：包括线性代数、统计学、数据处理科学

01

DL4J与Torch、Theano、Caffe、TensorFlow的比较

https://deeplearning4j.org/cn/compare-dl4j-torch7-pylearn

02

SparkMllib主题模型案例讲解

一本文涉及到的算法 1， LDA主题模型符号定义文档集合D，m篇，topic集合T，k个主题 D中每个文档d看作一个单词序列< w1,w2,...,wn >，wi表示第i个单词，设d有n个单词。（LDA里面称之为word bag，实际上每个单词的出现位置对LDA算法无影响） D中涉及的所有不同单词组成一个大集合VOCABULARY（简称VOC） LDA符合的分布每篇文章d(长度为)都有各自的主题分布，主题分布式多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数

05

大数据架构师知识图谱

一、大数据计算组件 Spark Flink Hive DataSphere 二、分布式存储 HDFS Hbase Doris 三、资源调度 Yarn Dolphin 四、数据仓库常用工具 Pig Hive kylin Spark SQL Impala Phoenix ElasticSearch Logstash Datax 五、消息队列 Kafka RocketMQ ZeroMQ ActiveMQ RabbitMQ 六、流式计算 Spark Streaming(准实时) Flink（实时）七、日志收集

04

如何利用机器学习和分布式计算来对用户事件进行聚类

导读机器学习，特别是聚类算法，可以用来确定哪些地理区域经常被一个用户访问和签到而哪些区域不是。这样的地理分析使多种服务成为可能，比如基于地理位置的推荐系统，先进的安全系统，或更通常来说，提供更个性化的用户体验。在这篇文章中，我会确定对每个人来说特定的地理活动区域，讨论如何从大量的定位事件中（比如在餐厅或咖啡馆的签到）获取用户的活动区域来构建基于位置的服务。举例来说，这种系统可以识别一个用户经常外出吃晚饭的区域。使用DBSCAN聚类算法首先，我们需要选择一种适用于定位数据的聚类算法，可以基于提供的数

06

StuQ 大数据工程师技能图谱

https://github.com/TeamStuQ/skill-map StuQ 程序员技能图谱官网 Web 页面地址：http://skill-map.stuq.org/，也可扫描页面下方二维码，以赞助形式获赠技能图谱纸质版。大数据工程师技能图谱大数据通用处理平台 Spark Flink Hadoop 分布式存储 HDFS 资源调度 Yarn Mesos 机器学习工具 Mahout Spark Mlib TensorFlow (Google 系) Amazon Machine Le

用人工神经网络预测急诊科患者幸存还是死亡

Apache Spark是一个基于集群的开源计算系统，主要用于处理非常大的数据集。并行计算和容错功能是Spark体系结构的内置功能。Spark Core是Spark的主要组件，并通过一组机器提供通用数据处理功能。基于Spark Core构建的其他组件带来更多功能，如机器学习。关于Apache Spark的全面介绍的文档已发布，请参阅Apache Spark官方文档，Apache Spark简介，Spark中的大数据处理和Spark Streaming入门。

07

Spark机器学习库(MLlib)指南之简介及基础统计

问题向导: (1)Spark机器学习库是什么，目标是什么？ (2)MLlib具体提供哪些功能？ (3)MLlib为什么要改用基于DataFrame的API? 1.Spark机器学习库(MLlib

07

ALS算法解析

Spark平台推出至今已经地带到2.4.x版本，很多地方都有了重要的更新，加入了很多新的东西。但是在协同过滤这一块却一直以来都只有ALS一种算法。同样是大规模计算平台，Hadoop中的机器学习算法库Mahout就集成了多种推荐算法，不但有user-cf和item-cf这种经典算法，还有KNN、SVD，Slope one这些，可谓随意挑选，简繁由君。我们知道得是，推荐系统这个应用本身并没有过时，那么Spark如此坚定地只维护一个算法，肯定是有他的理由的，让我们来捋一捋。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭