开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark mllib :如何将字符串分类特征转换为int，以便评级接受

Spark MLlib是Apache Spark的机器学习库，它提供了丰富的机器学习算法和工具，可以用于大规模数据集的分析和建模。在Spark MLlib中，将字符串分类特征转换为整数可以通过以下步骤完成：

导入所需的类和函数：import org.apache.spark.ml.feature.StringIndexer import org.apache.spark.ml.feature.StringIndexerModel
创建一个StringIndexer对象，并指定输入和输出列的名称：val indexer = new StringIndexer() .setInputCol("category") // 输入列名 .setOutputCol("categoryIndex") // 输出列名
使用StringIndexer对象对数据进行拟合和转换：val indexedData = indexer.fit(data).transform(data)其中，data是包含字符串分类特征的数据集。
如果需要将转换后的整数特征还原为原始字符串特征，可以使用StringIndexerModel对象：val model = indexer.fit(data) val originalData = model.transform(indexedData)

这样，字符串分类特征就被转换为整数特征，并可以用于评级接受等机器学习任务。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）
腾讯云大数据分析平台（https://cloud.tencent.com/product/emr）
腾讯云人工智能开放平台（https://cloud.tencent.com/product/aiopen）

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark学习之基于MLlib的机器学习

本文介绍了Spark基于MLlib的机器学习，包括机器学习算法、数据类型、操作向量、算法、统计、分类和聚类等。同时，还介绍了主成分分析（PCA）、奇异值分解（SVD）等降维方法在Spark上的应用。

05

深入理解XGBoost：分布式实现

本文将重点介绍XGBoost基于Spark平台Scala版本的实现，带领大家逐步完成特征提取、变换和选择、XGBoost模型训练、Pipelines、模型选择。

03

Spark MLlib知识点学习整理

MLlib的设计原理:把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。

02

在Apache Spark上跑Logistic Regression算法

本文旨在介绍使用机器学习算法，来介绍Apache Spark数据处理引擎。我们一开始会先简单介绍一下Spark，然后我们将开始实践一个机器学习的例子。我们将使用Qualitative Bankruptcy数据集，来自UCI机器学习数据仓库。虽然Spark支持同时Java，Scala，Python和R，在本教程中我们将使用Scala作为编程语言。不用担心你没有使用Scala的经验。练习中的每个代码段，我们都会详细解释一遍。 APACHE SPARK Apache Spark是一个开源的集群计算框架，用Spa

06

PySpark 中的机器学习库

传统的机器学习算法，由于技术和单机存储的限制，比如使用scikit-learn,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。但实际过程中样本往往很难做好随机，导致学习的模型不是很准确，在测试数据上的效果也可能不太好。随着 HDFS(Hadoop Distributed File System) 等分布式文件系统出现，存储海量数据已经成为可能。在全量数据上进行机器学习也成为了可能，这顺便也解决了统计随机性的问题。然而，由于 MapReduce 自身的限制，使得使用 MapReduce 来实现分布式机器学习算法非常耗时和消耗磁盘IO。因为通常情况下机器学习算法参数学习的过程都是迭代计算的，即本次计算的结果要作为下一次迭代的输入，这个过程中，如果使用 MapReduce，我们只能把中间结果存储磁盘，然后在下一次计算的时候从新读取，这对于迭代频发的算法显然是致命的性能瓶颈。引用官网一句话：Apache Spark™ is a unified analytics engine for large-scale data processing.Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务.

02

MLlib

使用Spark SQL中的DF作为数据集，可以容纳各种数据类型。DF被ML Pinline用来存储源数据。DF中的列可以是：

01

在Apache Spark上跑Logistic Regression算法

本文旨在介绍使用机器学习算法，来介绍Apache Spark数据处理引擎。我们一开始会先简单介绍一下Spark，然后我们将开始实践一个机器学习的例子。我们将使用Qualitative Bankruptcy数据集，来自UCI机器学习数据仓库。虽然Spark支持同时Java，Scala，Python和R，在本教程中我们将使用Scala作为编程语言。不用担心你没有使用Scala的经验。练习中的每个代码段，我们都会详细解释一遍。 APACHE SPARK Apache Spark是一个开源的集群计算框架，用Spa

03

如何使用Apache Spark MLlib预测电信客户流失

Spark MLLib是一个用于在海量数据集上执行机器学习和相关任务的库。使用MLlib，可以对十亿个观测值进行机器学习模型的拟合，可能只需要几行代码并利用数百台机器就能达到。MLlib大大简化了模型开发过程。

01

基于Spark的机器学习实践 (二) - 初识MLlib

MLlib是Spark的机器学习（ML）库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说，它提供了以下工具：

02

基于Spark的机器学习实践 (二) - 初识MLlib

MLlib是Spark的机器学习（ML）库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说，它提供了以下工具：

04

BigData--大数据技术之Spark机器学习库MLLib

MLlib fits into Spark’s APIs and interoperates with NumPy in Python (as of Spark 0.9) and R libraries (as of Spark 1.5). You can use any Hadoop data source (e.g. HDFS, HBase, or local files), making it easy to plug into Hadoop workflows. 1、Spark MLib介绍

01

大数据开发：Spark MLlib组件学习入门

在Spark生态圈当中，MLlib组件，作为机器学习库而存在，在大数据分析、数据挖掘等数据处理操作上，提供重要的支持。学习Spark，对于MLlib组件的学习，也可以有相应程度的掌握。今天的大数据开发学习分享，我们就来讲讲Spark MLlib组件学习入门。

04

PySpark ｜ML（转换器）

在PySpark中包含了两种机器学习相关的包：MLlib和ML，二者的主要区别在于MLlib包的操作是基于RDD的，ML包的操作是基于DataFrame的。根据之前我们叙述过的DataFrame的性能要远远好于RDD，并且MLlib已经不再被维护了，所以在本专栏中我们将不会讲解MLlib。

02

Spark机器学习实战 (十一) - 文本情感分类项目实战

将结合前述知识进行综合实战，以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联，使大家能够对Spark的具体应用有一个整体的感知与了解。

02

Spark机器学习实战 (十一) - 文本情感分类项目实战

将结合前述知识进行综合实战，以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联，使大家能够对Spark的具体应用有一个整体的感知与了解。

04

【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习

本来这篇是准备5.15更的，但是上周一直在忙签证和工作的事，没时间就推迟了，现在终于有时间来写写Learning Spark最后一部分内容了。　　第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线处理数据上的性能很好，那么它在实时数据上的表现怎么样呢？在实际生产中，我们经常需要即使处理收到的数据，比如实时机器学习模型的应用，自动异常的检测，实时追踪页面访问统计的应用等。Spark Streaming可以很好的解决上述类似的问题。了解Spark S

大数据初学或Java工程师怎么转大数据？大数据基础技术学习路线图

1.数据在体量方面很大，比如说文字，有各种各样的来源，有电子书|实体书|杂志|报刊等，它们的数据大吧。

00

SparkMLlib的数据类型讲解

SparkMLlib的数据类型讲解 Mllib支持单机上存储的本地向量和矩阵，也支持由一个或者多个RDD支持的分布式矩阵。本地向量和本地矩阵是简单的数据模型，用作公共接口。由Breeze提供基本的线性代数运算。。在监督学习中使用的训练示例在MLlib中被称为“labeled point” 一本地向量本地向量存储于单台机器，其拥有整类型的行，从0开始的索引，和double类型的值。Mllib支持两种类型的本地向量:密集向量(dense)和稀疏向量(sparse)。密集向量只有一个浮点数组组成，而一个稀疏向

07

在统一的分析平台上构建复杂的数据管道

在Quora上,大数据从业者经常会提出以下重复的问题：什么是数据工程（Data Engineering）？如何成为一名数据科学家（Data Scientist）？什么是数据分析师（Data Analyst）？

08

2小时入门Spark之MLlib

最近由于一直在用Spark搞数据挖掘，花了些时间系统学习了一下Spark的MLlib机器学习库，它和sklearn有八九分相似，也是Estimator，Transformer，Pipeline那一套，各种fit，transform接口。sklearn有多好学，MLlib就有多好学，甚至MLlib还要更加简单一些，因为MLlib库中支持的功能相对更少一些，并且MLlib基于DataFrame数据比sklearn基于numpy array会更加直观一些。

02

SparkMLLib中基于DataFrame的TF-IDF

一简介假如给你一篇文章，让你找出其关键词，那么估计大部分人想到的都是统计这个文章中单词出现的频率，频率最高的那个往往就是该文档的关键词。实际上就是进行了词频统计TF(Term Frequency，缩写为TF)。但是，很容易想到的一个问题是:“的”“是”这类词的频率往往是最高的对吧？但是这些词明显不能当做文档的关键词，这些词有个专业词叫做停用词(stop words)，我们往往要过滤掉这些词。这时候又会出现一个问题，那就是比如我们在一篇文章(浪尖讲机器学习)中得到的词频:“中国人”“机器学习“

07

spark零基础学习线路指导

问题导读 1.你认为spark该如何入门？ 2.你认为spark入门编程需要哪些步骤？ 3.本文介绍了spark哪些编程知识？ spark学习一般都具有hadoop基础，所以学习起来更

05

基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 from CCF举办的“大数据精准营销中搜狗用户画像

04

spark零基础学习线路指导【包括spark2】

问题导读 1.你认为spark该如何入门？ 2.你认为spark入门编程需要哪些步骤？ 3.本文介绍了spark哪些编程知识？

03

Spark Extracting,transforming,selecting features

官方文档链接：https://spark.apache.org/docs/2.2.0/ml-features.html

04

实战案例 | 使用机器学习和大数据预测心脏病

大数据和机器学习的组合是一项革命性的技术，如果以恰当的方式使用它，它可以在任何工业上产生影响。在医疗保健领域，它在很多情况下都有重要的使用，例如疾病检测、找到流行病早期爆发的迹象、使用集群来找到瘟疫流行的地区（例如寨卡（zika）易发区），或者在空气污染严重的国家找到空气质量最好的地带。在这篇文章里，我尝试用标准的机器学习算法和像 Apache Spark、parquet、Spark mllib和Spark SQL这样的大数据工具集，来探索已知的心脏疾病的预测。源代码这篇文章的源代码可以在GitHub的

06

Spark MLlib

机器学习是用数据或以往的经验，并以此来优化程序的性能指标。机器学习本质思想：使用现有的数据，训练出一个模型，然后在用这个模型去拟合其他的数据，给未知的数据做出一个预测结果。机器学习是一个求解最优化问题的过程。老师教学生，学生举一反三，考试成绩是学习效果的预测。分类：人脸识别判断性别聚类：发掘相同类型的爱好和兴趣。物以类聚人以群分回归：预测分析价格

06

探索MLlib机器学习

实用工具：线性代数，统计，数据处理等工具特征工程：特征提取，特征转换，特征选择常用算法：分类，回归，聚类，协同过滤，降维模型优化：模型评估，参数优化。

02

Spark MLlib特征处理之 StringIndexer、IndexToString使用说明以及源码剖析

StringIndexer可以把字符串的列按照出现频率进行排序，出现次数最高的对应的Index为0。比如下面的列表进行StringIndexer

00

Apache Spark 2.0预览：机器学习模型持久性

以上所有应用场景在模型持久性、保存和加载模型的能力方面都更为容易。随着Apache Spark 2.0即将发布，Spark的机器学习库MLlib将在DataFrame-based的API中对ML提供长期的近乎完整的支持。本博客给出了关于它的早期概述、代码示例以及MLlib的持久性API的一些细节。

08

SparkMllib介绍

1-ML算法，包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法 2-特征化：特征抽取、特征转换、特征选择、特征降维 3-管道Pipeline：将数据处理或特征工程的流程按照管道的方式去串联 4-持久化Persistence：保存模型，保存管道如何理解保存模型？原因就是不可能每次都去训练模型，而将已经训练好的模型进行保存，保存在本地或hdfs中，在本地或hdfs中加载已经训练好点模型，直接可以做预测分析 5-工具：包括线性代数、统计学、数据处理科学

01

Spark机器学习库(MLlib)指南之简介及基础统计

问题向导: (1)Spark机器学习库是什么，目标是什么？ (2)MLlib具体提供哪些功能？ (3)MLlib为什么要改用基于DataFrame的API? 1.Spark机器学习库(MLlib

07

在PySpark上使用XGBoost

我这里提供一个pyspark的版本，参考了大家公开的版本。同时因为官网没有查看特征重要性的方法，所以自己写了一个方法。本方法没有保存模型，相信大家应该会。

03

实操 | 内存占用减少高达90%，还不用升级硬件？没错，这篇文章教你妙用Pandas轻松处理大规模数据

编译 | AI科技大本营（rgznai100）参与 | 周翔注：Pandas(Python Data Analysis Library) 是基于 NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。此外，Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。相比较于 Numpy，Pandas 使用一个二维的数据结构 DataFrame 来表示表格式的数据，可以存储混合的数据结构，同时使用 NaN 来表示缺失的数据，而不用像 Numpy 一样要手工处理

04

Spark机器学习实战 (十二) - 推荐系统实战

将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。

04

Spark机器学习实战 (十二) - 推荐系统实战

将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。

03

请别再问我Spark的MLlib和ML库的区别

机器学习库（MLlib）指南 MLlib是Spark的机器学习（ML）库。其目标是使实际的机器学习可扩展和容易。在高层次上，它提供了如下工具： ML算法：通用学习算法，如分类，回归，聚类和协同过滤特征提取，特征提取，转换，降维和选择管道：用于构建，评估和调整ML管道的工具持久性：保存和加载算法，模型和管道实用程序：线性代数，统计，数据处理等公告：基于DataFrame的API是主要的API MLlib基于RDD的API现在处于维护模式。从Spark 2.0开始，包中的基于RDD的API spar

08

PySpark初级教程——第一步大数据分析(附代码实现)

我们正在以前所未有的速度生成数据。老实说，我跟不上世界各地里产生的巨大数据量!我敢肯定你已经了解过当今时代数据的产量。McKinsey, Gartner, IBM,等公司都给出了他们公司的数据。

02

大数据技术之_19_Spark学习_08_Spark 机器学习_02_凸优化算法 + 线性回归算法 + FPGrowth 关联规则算法 + 决策树 + 随机森林算法

不严格的说，凸优化就是在标准优化问题的范畴内，要求目标函数和约束函数是凸函数的一类优化问题。

03

PySpark UD(A)F 的高效使用

Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的，并在Java虚拟机(JVM)中运行，但它附带了Python绑定，也称为PySpark，其API深受panda的影响。在功能方面，现代PySpark在典型的ETL和数据处理方面具有与Pandas相同的功能，例如groupby、聚合等等。

03

Spark MLlib中的OneHot哑变量实践

在机器学习中，线性回归和逻辑回归算是最基础入门的算法，很多书籍都把他们作为第一个入门算法进行介绍。除了本身的公式之外，逻辑回归和线性回归还有一些必须要了解的内容。一个很常用的知识点就是虚拟变量（也叫做哑变量）—— 用于表示一些无法直接应用到线性公式中的变量（特征）。举个例子：通过身高来预测体重，可以简单的通过一个线性公式来表示，y=ax+b。其中x为身高，y为体重。现在想要多加一些特征（参数），比如性别。那么问题来了：如何在一个公式中表示性别呢？这就是哑变量的作用，它可以通过扩展特征值的个数

利用Spark MLIB实现电影推荐

源码及数据集：https://github.com/luo948521848/BigData

03

【技术分享】决策树分类

所谓决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所经历的路径对应一个判定测试序列。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。

02

【Spark Mllib】TF-IDF&Word2Vec——文本相似度

我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

03

机器学习在web攻击检测中的应用实践

一、背景通俗地讲，任何一个的机器学习问题都可以等价于一个寻找合适变换函数的问题。例如语音识别，就是在求取合适的变换函数，将输入的一维时序语音信号变换到语义空间；而近来引发全民关注的围棋人工智能AlphaGo则是将输入的二维布局图像变换到决策空间以决定下一步的最优走法；相应的，人脸识别也是在求取合适的变换函数，将输入的二维人脸图像变换到特征空间，从而唯一确定对应人的身份。在web应用攻击检测的发展历史中，到目前为止，基本是依赖于规则的黑名单检测机制，无论是web应用防火墙或ids等等，主要依赖于检测引擎内

05

第四章（1.2）机器学习——在web攻击检测中的应用实践

通俗地讲，任何一个的机器学习问题都可以等价于一个寻找合适变换函数的问题。例如语音识别，就是在求取合适的变换函数，将输入的一维时序语音信号变换到语义空间；而近来引发全民关注的围棋人工智能AlphaGo则是将输入的二维布局图像变换到决策空间以决定下一步的最优走法；相应的，人脸识别也是在求取合适的变换函数，将输入的二维人脸图像变换到特征空间，从而唯一确定对应人的身份。

02

图解大数据 | Spark机器学习(上)-工作流与特征工程

教程地址：http://www.showmeai.tech/tutorials/84

02

基于Spark的机器学习实践 (八) - 分类算法

贝叶斯定理（英语：Bayes’ theorem）是[概率论]中的一个[定理]，描述在已知一些条件下，某事件的发生概率。比如，如果已知某癌症与寿命有关，使用贝叶斯定理则可以通过得知某人年龄，来更加准确地计算出他罹患癌症的概率。

02

大数据驱动的实时文本情感分析系统：构建高效准确的情感洞察【上进小菜猪大数据】

随着互联网的快速发展和大数据技术的不断成熟，用户推荐系统在各个应用领域变得越来越重要。本文将介绍如何利用大数据技术构建一个实时用户推荐系统。我们将通过结合Apache Kafka、Apache Spark和机器学习算法，实现一个高效、可扩展且准确的推荐系统。同时，本文还将提供具体的代码实例和技术深度解析，帮助读者更好地理解和实践。

01

干货 | 机器学习在web攻击检测中的应用实践

一、背景在web应用攻击检测的发展历史中，到目前为止，基本是依赖于规则的黑名单检测机制，无论是web应用防火墙或ids等等，主要依赖于检测引擎内置的正则，进行报文的匹配。虽说能够抵御绝大部分的攻击，但我们认为其存在以下几个问题： 1. 规则库维护困难，人员交接工作，甚至时间一长，原作者都很难理解当初写的规则，一旦有误报发生，上线修改都很困难。 2. 规则写的太宽泛易误杀，写的太细易绕过。例如一条检测sql注入的正则语句如下： Stringinj_str = "'|and|exec|insert|sel

09

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭