前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark MLlib中的OneHot哑变量实践

Spark MLlib中的OneHot哑变量实践

作者头像
用户1154259
发布2018-01-17 10:26:12
1.5K0
发布2018-01-17 10:26:12
举报

在机器学习中,线性回归和逻辑回归算是最基础入门的算法,很多书籍都把他们作为第一个入门算法进行介绍。除了本身的公式之外,逻辑回归和线性回归还有一些必须要了解的内容。一个很常用的知识点就是虚拟变量(也叫做哑变量)—— 用于表示一些无法直接应用到线性公式中的变量(特征)。

举个例子:

通过身高来预测体重,可以简单的通过一个线性公式来表示,y=ax+b。其中x为身高,y为体重。

现在想要多加一些特征(参数),比如性别。

那么问题来了:如何在一个公式中表示性别呢?

这就是哑变量的作用,它可以通过扩展特征值的个数来表示一些无法被直接数值化的参数。

实例演示

下面是一组数据,第一列表示体重,第二列表示身高,第三列表示性别

体重

身高

性别

60

170

F

45

163

M

80

183

F

70

175

F

52

167

M

现在首先需要把第三列转换成数值类型

体重

身高

性别

60

170

1.0

45

163

0.0

80

183

1.0

70

175

1.0

52

167

0.0

然后使用多维的数据表示这个参数

体重

身高

性别男

性别女

60

170

1.0

0.0

45

163

0.0

1.0

80

183

1.0

0.0

70

175

1.0

0.0

52

167

0.0

1.0

即,性别这一列会通过两列来标识。

一般来说,有多少种情况出现,就会出现多少列。当然会有很多不同的表现形式,比如有的是通过N-1列表示(为空时表示一种情况),有的是通过n列表示。

代码实践

在Spark MLlib中已经提供了处理哑变量的方法,叫做OneHotEncoder,翻译过来叫做 一位有效编码,即把可能出现多个值的某列转变成多列,同时只有一列有效。MLlib提供了两个方法一个是StringIndex方法,这个方法可以把不同的字符串转换成数值,比如F``M分别用0.0``1.0表示。还有一个是OneHotEncoder方法,这个方法可以把不同的数值转变成稀疏向量。

什么是稀疏向量

在MLlib中,向量有两种表示方法,一种是密集向量,一种是稀疏向量。

  • 密集向量很好理解,[1,2,3,4],代表这个向量有四个元素,分别是1 2 3 4
  • 稀疏向量则可以根据下表表示,(3,[4,5,6],[1,2,3]),第一个值代表大小,第二个代表下标数组,第二个是下标对应的值。

然后话说回来,OneHotEncoder方法可以把不同的数值变成稀疏向量,这样一列就相当于可以用多列来表示。

下面我们具体的看一下代码吧!

代码语言:javascript
复制
object encoderTest {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("MovieLensALS-Test").setMaster("local[2]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")
    val sqlContext = new SQLContext(sc)
    val df = sqlContext.createDataFrame(Seq(
      (60, 170,"F","长春"),
      (45, 163,"M","长春"),
      (80, 183,"F","沈阳"),
      (70, 175,"F","大连"),
      (52, 167,"M","哈尔滨")
    )).toDF("weight", "height","sex","address")

    //把性别这一列数值化
    val indexer = new StringIndexer()
      .setInputCol("sex")
      .setOutputCol("sexIndex")
      .fit(df)
    val indexed = indexer.transform(df)
    //对性别这列进行 有效位编码
    val encoder = new OneHotEncoder()
      .setInputCol("sexIndex")
      .setOutputCol("sexVec")
    val encoded = encoder.transform(indexed)
    //对地址这一列数值化
    val indexer1 = new StringIndexer()
      .setInputCol("address")
      .setOutputCol("addressIndex")
      .fit(encoded)
    val indexed1 = indexer1.transform(encoded)
    //对地址进行有效位编码
    val encoder1 = new OneHotEncoder()
      .setInputCol("addressIndex")
      .setOutputCol("addressVec")
    val encoded1 = encoder1.transform(indexed1)

    encoded1.show()
  }
}

输出的内容为:

代码语言:javascript
复制
+------+------+---+-------+--------+-------------+------------+-------------+
|weight|height|sex|address|sexIndex|       sexVec|addressIndex|   addressVec|
+------+------+---+-------+--------+-------------+------------+-------------+
|    60|   170|  F|     长春|     0.0|(1,[0],[1.0])|         0.0|(3,[0],[1.0])|
|    45|   163|  M|     长春|     1.0|    (1,[],[])|         0.0|(3,[0],[1.0])|
|    80|   183|  F|     沈阳|     0.0|(1,[0],[1.0])|         3.0|    (3,[],[])|
|    70|   175|  F|     大连|     0.0|(1,[0],[1.0])|         2.0|(3,[2],[1.0])|
|    52|   167|  M|    哈尔滨|     1.0|    (1,[],[])|         1.0|(3,[1],[1.0])|
+------+------+---+-------+--------+-------------+------------+-------------+

这样有什么用呢? 得到了weight``height``sexVec``addressVec,就相当于得到了一组数据,基于这组数据,就可以来训练线性回归,得到模型后,就可以根据一个人的身高、性别、地址来预测这个人的身高了。

参考

1 MLlib OneHotEncoder官方文档:http://spark.apache.org/docs/1.6.0/ml-features.html#onehotencoder 2 虚拟变量定义:http://wiki.mbalib.com/wiki/%E8%99%9A%E6%8B%9F%E5%8F%98%E9%87%8F

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-07-04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 举个例子:
  • 实例演示
  • 代码实践
    • 什么是稀疏向量
    • 参考
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档