CountVectorizer

CountVectorizer

关于文本特征提取,前面一篇文章TF-IDF介绍了HashingTF,本文将再介绍一种Spark MLlib的API CountVectorizer。

CountVectorizer CountVectorizerModel 旨在帮助将文本文档集合转化为频数向量。当先验词典不可用时,CountVectorizer可以用作Estimator提取词汇表,并生成一个CountVectorizerModel。该模型会基于该字典为文档生成稀疏矩阵,该稀疏矩阵可以传给其它算法,比如LDA,去做一些处理。

在拟合过程中,CountVectorizer会从整个文档集合中进行词频统计并排序后的前vocabSize个单词。

一个可选参数minDF也会影响拟合过程,方法是指定词汇必须出现的文档的最小数量(或小于1.0)。另一个可选的二进制切换参数控制输出向量。如果设置为true,则所有非零计数都设置为1.这对于模拟二进制计数而不是整数计数的离散概率模型特别有用。

举例说明该算法

假如我们有个DataFrame有两列:id和texts。

id

texts

0

Array("a", "b", "c")

1

Array("a", "b", "b", "c", "a")

每一行texts都是一个Array [String]类型的文档。使用字典(A,B,C)调用CountVectorizer产生CountVectorizerModel。然后转换后的输出列“向量”包含

vector列:

id

texts

vector

0

Array("a", "b", "c")

(3,[0,1,2],[1.0,1.0,1.0])

1

Array("a", "b", "b", "c", "a")

(3,[0,1,2],[2.0,2.0,1.0])

将两篇文档中的词去重后就组成了一个字典,这个字典中有3个词:a,b,c,分别建立索引为0,1,2. 在第三列的文档向量,是由基于字典的索引向量,与对应对索引的词频向量所组成的。 文档向量是稀疏的表征,例子中只有3个词可能感觉不出,在实际业务中,字典的长度是上万,而文章中出现的词可能是几百或几千,故很多索引对应的位置词频都是0.

spark中的源码

导包

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}

准备数据

val df = spark.createDataFrame(Seq(  (0, Array("a", "b", "c")),  (2, Array("a", "b", "c", "c", "a")))).toDF("id", "words")

从全文集中拟合CountVectorizerModel(自动计算字典)

val cvModel: CountVectorizerModel = new CountVectorizer()  .setInputCol("words")  .setOutputCol("features")  .setVocabSize(3)  .setMinDF(2).fit(df)

查看结果

cvModel.transform(df).show(false)

指定预先字典

val cvm = new CountVectorizerModel(Array("a", "b", "c")).setInputCol("words").setOutputCol("features")

为了避免重复,重新造一组数据

val df = spark.createDataFrame(Seq(  (0, Array("a", "b", "c")),  (2, Array("a", "b", "c", "c", "a")))).toDF("id", "words")

查看结果

cvm.transform(df).show(false)

原文发布于微信公众号 - Spark学习技巧(bigdatatip)

原文发表时间:2017-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小樱的经验随笔

Gym 100952C&&2015 HIAST Collegiate Programming Contest C. Palindrome Again !!【字符串,模拟】

C. Palindrome Again !! time limit per test:1 second memory limit per test:64 meg...

2683
来自专栏数据结构与算法

1893. [国家集训队2011]等差子序列(bitset)

★★   输入文件:nt2011_sequence.in   输出文件:nt2011_sequence.out 简单对比 时间限制:0.3 s   内存限制:5...

35410
来自专栏自学笔记

Data Structure_图图论带权图

交通运输,社交网络,互联网,工作的安排,闹区活动等等都可以用到图论处理。图可以分成两大类,一类是无向图,就是没有方向的,就好像两个人都互相认识一样,有向图就是单...

791
来自专栏calmound

hust Dating With Girls

http://acm.sdibt.edu.cn:8080/judge/contest/view.action?cid=573#problem/B 题意:求最大权...

2904
来自专栏desperate633

LintCode 矩阵的之字型遍历题目分析代码

给你一个包含 m x n 个元素的矩阵 (m 行, n 列), 求该矩阵的之字型遍历。

791
来自专栏数据结构与算法

洛谷P1730 最小密度路径(floyd)

很显然的一个dp方程\(f[i][j][k][l]\)表示从\(i\)到\(j\)经过了\(k\)条边的最小权值

973
来自专栏owent

C++ 新特性学习(六) — 新的字符串编码和伪随机数

使用u””为能至少储存UTF-16的16位元编码,对应’\u’表示16位元的字符。

911
来自专栏达摩兵的技术空间

js实现01数字矩阵

1052
来自专栏鸿的学习笔记

写给开发者的机器学习指南(十)

An attempt at rank prediction for topselling books using text regression

953
来自专栏C语言及其他语言

【每日一题】1426: [蓝桥杯][历届试题]九宫重排

如下面第一个图的九宫格中,放着 1~8 的数字卡片,还有一个格子空着。与空格子相邻的格子中的卡片可以移动到空格中。经过若干次移动,可以形成第二个图所示的局面...

1123

扫码关注云+社区

领取腾讯云代金券