Spark机器学习API之特征处理

问题导读: 1.怎样利用Spark机器学习API进行特征提取?

2.怎样利用Spark机器学习API进行特征选择?

3.Spark机器学习API中的特征选择有哪几种方法?

Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。 Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。 特征提取(Feature Extractors) 1. TF-IDF (HashingTF and IDF)TF-IDF是文本特征提取中一个常用的方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 2. Word2VecWord2Vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 下面的例子将每个文档中的词语转换成长度为3的向量:

[Java] 纯文本查看 复制代码

?

package com.lxw1234.spark.features
  
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.ml.feature.Word2Vec
  
/**
 * auth: [url=http://lxw1234.com]http://lxw1234.com[/url]
 */
object TestWord2Vec {
  def main(args : Array[String]) {
    val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")
    val sc = new SparkContext(conf)
     
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    import sqlContext.implicits._
     
    val documentDF = sqlContext.createDataFrame(Seq(
      "苹果 官网 苹果 宣布".split(" "),
      "苹果 梨 香蕉".split(" ")
    ).map(Tuple1.apply)).toDF("text")
     
    val word2Vec = new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize(3).setMinCount(1)
    val model = word2Vec.fit(documentDF)
     
    val result = model.transform(documentDF)
    result.collect().foreach(println)
     
  }
}

程序运行输出如下: [WrappedArray(苹果, 官网, 苹果, 宣布),[0.006021047011017799,-0.002911671996116638,0.05357655562693253]] [WrappedArray(苹果, 梨, 香蕉),[-0.10302492479483286,-0.059321289261182145,0.05107089380423228]] 3. CountVectorizer该方法用于将所有的文本词语进行编号,每个词语对应一个编号,并统计该词语在文档中的词频作为特征向量。

[Java] 纯文本查看 复制代码

?

package com.lxw1234.spark.features
  
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
  
/**
 * auth: [url=http://lxw1234.com]http://lxw1234.com[/url]
 */
object TestCountVectorizer {
  def main(args : Array[String]) {
    val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")
    val sc = new SparkContext(conf)
     
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    import sqlContext.implicits._
     
    val df = sqlContext.createDataFrame(Seq(
      (0, Array("苹果","官网","苹果","宣布")),
      (1, Array("苹果","梨","香蕉"))
    )).toDF("id", "words")
     
    var cvModel: CountVectorizerModel = new CountVectorizer()
      .setInputCol("words")
      .setOutputCol("features")
      .setVocabSize(5)  //设置词语的总个数,词语编号后的数值均小于该值
      .setMinDF(1) //设置包含词语的最少的文档数
      .fit(df)
     
    println("output1:")
    cvModel.transform(df).select("id","words","features").collect().foreach(println)
     
    var cvModel2: CountVectorizerModel = new CountVectorizer()
      .setInputCol("words")
      .setOutputCol("features")
      .setVocabSize(3)  //设置词语的总个数,词语编号后的数值均小于该值
      .setMinDF(2) //设置包含词语的最少的文档数
      .fit(df)
     
    println("output2:")
    cvModel2.transform(df).select("id","words","features").collect().foreach(println)
     
  }
}

程序output1的输出如下:

[0,WrappedArray(苹果, 官网, 苹果, 宣布),(5,[0,3,4],[2.0,1.0,1.0])] [1,WrappedArray(苹果, 梨, 香蕉),(5,[0,1,2],[1.0,1.0,1.0])]

程序output2的输出如下:

[0,WrappedArray(苹果, 官网, 苹果, 宣布),(1,[0],[2.0])] [1,WrappedArray(苹果, 梨, 香蕉),(1,[0],[1.0])]

因为setMinDF(2)设置了词语最低出现的文档数为2,因此只保留了”苹果”一词。

特征选择(Feature Selectors) 1. VectorSlicer

VectorSlicer用于从原来的特征向量中切割一部分,形成新的特征向量,比如,原来的特征向量长度为10,我们希望切割其中的5~10作为新的特征向量,使用VectorSlicer可以快速实现。

[Java] 纯文本查看 复制代码

?

package com.lxw1234.spark.features.selectors
  
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
  
import org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}
import org.apache.spark.ml.feature.VectorSlicer
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructType
  
/**
 * By  [url=http://lxw1234.com]http://lxw1234.com[/url]
 */
object TestVectorSlicer extends App {
    val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")
    val sc = new SparkContext(conf)
     
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    import sqlContext.implicits._
     
     
    //构造特征数组
    val data = Array(Row(Vectors.dense(-2.0, 2.3, 0.0)))
     
    //为特征数组设置属性名(字段名),分别为f1 f2 f3
    val defaultAttr = NumericAttribute.defaultAttr
    val attrs = Array("f1", "f2", "f3").map(defaultAttr.withName)
    val attrGroup = new AttributeGroup("userFeatures", attrs.asInstanceOf[Array[Attribute]])
     
    //构造DataFrame
    val dataRDD = sc.parallelize(data)
    val dataset = sqlContext.createDataFrame(dataRDD, StructType(Array(attrGroup.toStructField())))
     
    print("原始特征:")
    dataset.take(1).foreach(println)
     
     
    //构造切割器
    var slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")
     
    //根据索引号,截取原始特征向量的第1列和第3列
    slicer.setIndices(Array(0,2))
    print("output1: ") 
    slicer.transform(dataset).select("userFeatures", "features").first()
     
    //根据字段名,截取原始特征向量的f2和f3
    slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")
    slicer.setNames(Array("f2","f3"))
    print("output2: ") 
    slicer.transform(dataset).select("userFeatures", "features").first()
     
    //索引号和字段名也可以组合使用,截取原始特征向量的第1列和f2
    slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")
    slicer.setIndices(Array(0)).setNames(Array("f2"))
    print("output3: ") 
    slicer.transform(dataset).select("userFeatures", "features").first()
     
     
}

程序运行输出为:

[Plain Text] 纯文本查看 复制代码

?

原始特征:
[[-2.0,2.3,0.0]]
  
output1:
org.apache.spark.sql.Row = [[-2.0,2.3,0.0],[-2.0,0.0]]
  
output2:
org.apache.spark.sql.Row = [[-2.0,2.3,0.0],[2.3,0.0]]
  
output3:
org.apache.spark.sql.Row = [[-2.0,2.3,0.0],[-2.0,2.3]]

2. RFormula

RFormula用于将数据中的字段通过R语言的Model Formulae转换成特征值,输出结果为一个特征向量和Double类型的label。

[Java] 纯文本查看 复制代码

?

package com.lxw1234.spark.features.selectors
  
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
  
import org.apache.spark.ml.feature.RFormula
  
/**
 * By  [url=http://lxw1234.com]http://lxw1234.com[/url]
 */
object TestRFormula extends App {
   
    val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")
    val sc = new SparkContext(conf)
     
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    import sqlContext.implicits._
     
    //构造数据集
    val dataset = sqlContext.createDataFrame(Seq(
      (7, "US", 18, 1.0),
      (8, "CA", 12, 0.0),
      (9, "NZ", 15, 0.0)
    )).toDF("id", "country", "hour", "clicked")
    dataset.select("id", "country", "hour", "clicked").show()
     
    //当需要通过country和hour来预测clicked时候,
    //构造RFormula,指定Formula表达式为clicked ~ country + hour
    val formula = new RFormula().setFormula("clicked ~ country + hour").setFeaturesCol("features").setLabelCol("label")
    //生成特征向量及label
    val output = formula.fit(dataset).transform(dataset)
    output.select("id", "country", "hour", "clicked", "features", "label").show()
}

程序输出:

3. ChiSqSelector

ChiSqSelector用于使用卡方检验来选择特征(降维)。

[Java] 纯文本查看 复制代码

?

package com.lxw1234.spark.features.selectors
  
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.ml.feature.ChiSqSelector
import org.apache.spark.mllib.linalg.Vectors
  
/**
 * By  [url=http://lxw1234.com]http://lxw1234.com[/url]
 */
object TestChiSqSelector extends App {
   
    val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")
    val sc = new SparkContext(conf)
     
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    import sqlContext.implicits._
     
    //构造数据集
    val data = Seq(
      (7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0),
      (8, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0.0),
      (9, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0.0)
    )
    val df = sc.parallelize(data).toDF("id", "features", "clicked")
    df.select("id", "features","clicked").show()
     
    //使用卡方检验,将原始特征向量(特征数为4)降维(特征数为3)
    val selector = new ChiSqSelector().setNumTopFeatures(3).setFeaturesCol("features").setLabelCol("clicked").setOutputCol("selectedFeatures")
     
    val result = selector.fit(df).transform(df)
    result.show()
  
}

程序输出为:

原文发布于微信公众号 - about云(wwwaboutyuncom)

原文发表时间:2016-04-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

第一章 | 使用python机器学习

python经常作为机器学习的首选,有一个统计,50%以上的机器学习开发者使用python。在学习机器学习之前需要熟悉以下几个python模块: numpy P...

3965
来自专栏量子位

谷歌云TPU上可以用Julia啦!0.23秒跑100张图片,Jeff Dean点赞推荐

不久前,Julia Computing官方放出了一篇论文,展示将Julia代码和机器学习模型编译到谷歌云TPU的方法,可以实现在0.23秒内完成100张图片VG...

1273
来自专栏xingoo, 一个梦想做发明家的程序员

推荐系统那点事 —— 基于Spark MLlib的特征选择

在机器学习中,一般都会按照下面几个步骤:特征提取、数据预处理、特征选择、模型训练、检验优化。那么特征的选择就很关键了,一般模型最后效果的好坏往往都是跟特征的选...

2859
来自专栏前端说吧

JS-缓冲运动基础结构

课程来源路径:智能社得开发课程:https://ke.qq.com/webcourse/index.html#course_id=152997&term_id=...

861
来自专栏生信技能树

二代测序数据拼接之原理篇

前前后后接触了一些基因组和转录组拼接的工作,而且后期还会持续进行。期间遇到了各种各样莫名其妙的坑,也尝试了一些不同的方法和软件,简单做一个阶段性小结,本篇是原理...

1.6K5
来自专栏数据结构与算法

【BZOJ3203】保护出题人(动态规划,斜率优化)

在最优情况下,肯定是存在某只僵尸在到达重点的那一瞬间将其打死 我们现在知道了每只僵尸到达终点的时间,因为僵尸要依次打死。 所以我们假设血量的前缀和是\(s_...

2025
来自专栏数据结构与算法

扩展中国剩余定理详解

前言 阅读本文前,推荐先学一下中国剩余定理。其实不学也无所谓,毕竟两者没啥关系 扩展CRT 我们知道,中国剩余定理是用来解同余方程组 但是有一个非常令...

3269
来自专栏数据结构与算法

2727:仙岛求药

2727:仙岛求药 查看 提交 统计 提问 总时间限制:1000ms内存限制:65536kB描述少年李逍遥的婶婶病了,王小虎介绍他去一趟仙灵岛,向仙女姐姐要仙丹...

3128
来自专栏数据结构与算法

BZOJ1059: [ZJOI2007]矩阵游戏(二分图匹配)

  小Q是一个非常聪明的孩子,除了国际象棋,他还很喜欢玩一个电脑益智游戏——矩阵游戏。矩阵游戏在一个N

992
来自专栏数据结构与算法

cf932E. Team Work(第二类斯特灵数 组合数)

$$m^n = \sum_{i = 0}^m C_{n}^i S(n, i) i!$$

1114

扫码关注云+社区

领取腾讯云代金券