Spark randomSplit训练和测试数据行计数总是给出不同的结果 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

在Apache Spark上跑Logistic Regression算法

分布式机器学习原理及实战(Pyspark)

大数据（Big Data）是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术，是指从各种各样类型的数据中，快速获得有价值信息的能力。

【机器学习】--决策树和随机森林

决策树是一种非线性有监督分类模型，随机森林是一种非线性有监督分类模型。线性分类模型比如说逻辑回归，可能会存在不可分问题，但是非线性分类就不存在。二、具体原理

Spark机器学习实战 (十二) - 推荐系统实战

将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。

Spark机器学习实战 (十二) - 推荐系统实战

Spark 模型选择和调参

官方文档：https://spark.apache.org/docs/2.2.0/ml-tuning.html

Decision Trees in Apache Spark (Apache Spark中的决策树)

Decision Trees in Apache Spark 原文作者：Akash Sethi 原文地址：https://dzone.com/articles/decision-trees-in-apache-spark 译者微博：@从流域到海域译者博客：blog.csdn.blog/solo95 本文同样刊载于腾讯云+：https://cloud.tencent.com/developer/article/1034616 Apache Spark中的决策树决策树是在顺序决策问题进行

降维:主成分分析(PCA)

本文主要介绍了一种在技术社区中，基于用户行为，自动为用户推荐相关技术内容的算法。该算法通过分析用户的行为数据，挖掘用户的技术偏好，从而为用户推荐精准、高质量的技术内容。同时，该算法还可以不断自我学习，不断优化推荐效果。

Apache Spark中的决策树

原文地址：https://dzone.com/articles/decision-trees-in-apache-spark

图解大数据 | Spark机器学习(下)—建模与超参调优

教程地址：http://www.showmeai.tech/tutorials/84

基于Spark Mllib的文本分类

基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题，其主要目标是通过对已有语料库文本数据训练得到分类模型，进而对新文本进行类别标签的预测。这在很多领域都有现实的应用场景，如新闻网站的新闻自动分类，垃圾邮件检测，非法信息过滤等。本文将通过训练一个手机短信样本数据集来实现新数据样本的分类，进而检测其是否为垃圾消息，基本步骤是：首先将文本句子转化成单词数组，进而使用 Word2Vec 工具将单词数组转化成一个 K 维向量，最后通过训练 K 维向量样本数据得到一个前馈神经网络模型，以此来实现文本

PySpark 中的机器学习库

传统的机器学习算法，由于技术和单机存储的限制，比如使用scikit-learn,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。但实际过程中样本往往很难做好随机，导致学习的模型不是很准确，在测试数据上的效果也可能不太好。随着 HDFS(Hadoop Distributed File System) 等分布式文件系统出现，存储海量数据已经成为可能。在全量数据上进行机器学习也成为了可能，这顺便也解决了统计随机性的问题。然而，由于 MapReduce 自身的限制，使得使用 MapReduce 来实现分布式机器学习算法非常耗时和消耗磁盘IO。因为通常情况下机器学习算法参数学习的过程都是迭代计算的，即本次计算的结果要作为下一次迭代的输入，这个过程中，如果使用 MapReduce，我们只能把中间结果存储磁盘，然后在下一次计算的时候从新读取，这对于迭代频发的算法显然是致命的性能瓶颈。引用官网一句话：Apache Spark™ is a unified analytics engine for large-scale data processing.Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务.

PySpark之RDD入门最全攻略！

众所周知，Spark的核心是RDD（Resilient Distributed Dataset）即弹性分布式数据集，属于一种分布式的内存系统的数据集应用。Spark主要优势就是来自RDD本身的特性，RDD能与其他系统兼容，可以导入外部存储系统的数据集，例如，HDFS、HBase或者其他Hadoop数据源。 1、RDD的基本运算 RDD运算类型说明转换（Transformation）转换运算将一个RDD转换为另一个RDD，但是由于RDD的lazy特性，转换运算不会立刻实际执行，它会等到执行到“动作”运算，才会

使用PySpark迁移学习

在本文中，将演示计算机视觉问题，它结合了两种最先进的技术：深度学习和Apache Spark。将利用深度学习管道的强大功能来解决多类图像分类问题。

【Spark Mllib】决策树，随机森林——预测森林植被类型

决策树有训练分类模型的函数trainClassifier和回归模型的函数trainRegressor，这里我们使用trainClassifier。我们来看看trainClassifier都需要什么参数：

【技术分享】保序回归

保序回归解决了下面的问题：给定包含n个数据点的序列 y_1,y_2,...,y_n , 怎样通过一个单调的序列 beta_1,beta_2,...,beta_n 来归纳这个问题。形式上，这个问题就是为了找到

探索MLlib机器学习

实用工具：线性代数，统计，数据处理等工具特征工程：特征提取，特征转换，特征选择常用算法：分类，回归，聚类，协同过滤，降维模型优化：模型评估，参数优化。

利用随机森林算法实现Bank风险预测

源码分享及数据集分享：https://github.com/luo948521848/BigDatas

【推荐系统篇】--推荐系统之训练模型

经过之前的训练数据的构建可以得到所有特征值为1的模型文件，本文将继续构建训练数据特征并构建模型。

pyspark 随机森林的实现

随机森林是由许多决策树构成，是一种有监督机器学习方法，可以用于分类和回归，通过合并汇总来自个体决策树的结果来进行预测，采用多数选票作为分类结果，采用预测结果平均值作为回归结果。

白话推荐系统——从原理到实践，还有福利赠送！

之前流水账似的介绍过一篇机器学习入门的文章，大致介绍了如何学习以及机器学习的入门方法并提供了一些博主自己整理的比较有用的资源。这篇就尽量以白话解释并介绍机器学习在推荐系统中的实践以及遇到的问题... 也许很多点在行家的眼里都是小菜一碟，但是对于刚刚接触机器学习来说，还有很多未知等待挑战。所以读者可以把本篇当做是机器学习的玩具即可，如果文中有任何问题，还请不吝指教。本篇将会以下面的步骤描述机器学习是如何在实践中应用的： 1 什么是推荐系统？ 2 机器学习的作用 3 机器学习是如何使用的？ 4 基于S

【Spark Mllib】K-均值聚类——电影类型

代码实现中，首先需要引入必要的模块，设置模型参数： K（numClusters）、最大迭代次数（numIteration）和训练次数（numRuns）。然后，对电影的系数向量运行K-均值算法。最后，在用户相关因素的特征向量上训练K-均值模型：

python中的pyspark入门

PySpark是Python和Apache Spark的结合，是一种用于大数据处理的强大工具。它提供了使用Python编写大规模数据处理和分析代码的便利性和高效性。本篇博客将向您介绍PySpark的基本概念以及如何入门使用它。

基于Spark的机器学习实践 (八) - 分类算法

贝叶斯定理（英语：Bayes’ theorem）是[概率论]中的一个[定理]，描述在已知一些条件下，某事件的发生概率。比如，如果已知某癌症与寿命有关，使用贝叶斯定理则可以通过得知某人年龄，来更加准确地计算出他罹患癌症的概率。

【技术分享】决策树分类

所谓决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所经历的路径对应一个判定测试序列。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。

基于Spark的机器学习实践 (八) - 分类算法

贝叶斯定理（英语：Bayes' theorem）是概率论中的一个定理，描述在已知一些条件下，某事件的发生概率。

spark入门框架+python

不可否认，spark是一种大数据框架，它的出现往往会有Hadoop的身影，其实Hadoop更多的可以看做是大数据的基础设施，它本身提供了HDFS文件系统用于大数据的存储，当然还提供了MR用于大数据处理，但是MR有很多自身的缺点，针对这些缺点也已经有很多其他的方法，类如针对MR编写的复杂性有了Hive，针对MR的实时性差有了流处理Strom等等，spark设计也是针对MR功能的，它并没有大数据的存储功能，只是改进了大数据的处理部分，它的最大优势就是快，因为它是基于内存的，不像MR每一个job都要和磁盘打交道，所以大大节省了时间，它的核心是RDD,里面体现了一个弹性概念意思就是说，在内存存储不下数据的时候，spark会自动的将部分数据转存到磁盘，而这个过程是对用户透明的。

用人工神经网络预测急诊科患者幸存还是死亡

Apache Spark是一个基于集群的开源计算系统，主要用于处理非常大的数据集。并行计算和容错功能是Spark体系结构的内置功能。Spark Core是Spark的主要组件，并通过一组机器提供通用数据处理功能。基于Spark Core构建的其他组件带来更多功能，如机器学习。关于Apache Spark的全面介绍的文档已发布，请参阅Apache Spark官方文档，Apache Spark简介，Spark中的大数据处理和Spark Streaming入门。

【技术分享】线性支持向量机

线性支持向量机是一个用于大规模分类任务的标准方法。。它的损失函数是合页（hinge）损失，如下所示

Spark常用Transformations算子(二)

介绍以下Transformations算子： aggregateByKey join cogroup cartesian pipe repartitionAndSortWithinPartitions glom randomSplit zip zipWithIndex zipWithUniqueId

【技术分享】随机森林分类

Bagging采用自助采样法(bootstrap sampling)采样数据。给定包含m个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时，样本仍可能被选中，这样，经过m次随机采样操作，我们得到包含m个样本的采样集。

Spark 转换算子源码

可以从源码看出其入参是f: T ⇒ U 是一个函数，首先经过sc.clean(f) 进行闭包检测，然后创建一个MapPartitionsRDD。sc.clean()函数的作用检测用户构建的函数是否可以序列化，这是因为Spark中的map是一个分布式的函数，最终的执行是在Executor上开线程执行，而我们的函数构建都是在Driver端进行。Spark实际上进行的是计算的转移，将函数传递到数据所在的Worker节点。

VALDO2021——血管病变检测挑战赛之血管周围间隙扩大计数（一）

今天将分享动血管周围间隙扩大计数的第一步热力图回归检测的完整实现过程，为了方便大家学习理解整个流程，将整个流程步骤进行了整理，并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。

pyspark-ml学习笔记：pyspark下使用xgboost进行分布式训练

问题是这样的，如果我们想基于pyspark开发一个分布式机器训练平台，而xgboost是不可或缺的模型，但是pyspark ml中没有对应的API，这时候我们需要想办法解决它。

大数据技术之_26_交通状态预测项目_01

该项目以车辆预测为基础，学习业务解决的方法论。学习完本项目后，可以解决如下问题或适用于如下业务场景： 1、公路堵车预测 2、地铁人流量预测 3、共享单车聚集点预测等等

大数据技术之_19_Spark学习_08_Spark 机器学习_02_凸优化算法 + 线性回归算法 + FPGrowth 关联规则算法 + 决策树 + 随机森林算法

不严格的说，凸优化就是在标准优化问题的范畴内，要求目标函数和约束函数是凸函数的一类优化问题。

如何使用Apache Spark MLlib预测电信客户流失

Spark MLLib是一个用于在海量数据集上执行机器学习和相关任务的库。使用MLlib，可以对十亿个观测值进行机器学习模型的拟合，可能只需要几行代码并利用数百台机器就能达到。MLlib大大简化了模型开发过程。

从Spark MLlib到美图机器学习框架实践

感谢阅读「美图数据技术团队」的第 23 篇原创文章，关注我们持续获取美图最新数据技术动态。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐