前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >聊聊基于Alink库的特征工程方法

聊聊基于Alink库的特征工程方法

作者头像
Ryan_OVO
发布2023-10-19 19:58:18
1870
发布2023-10-19 19:58:18
举报
文章被收录于专栏:程序随笔程序随笔

独热编码

OneHotEncoder 是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式,特别适用于处理类别型特征,将其转换为数值型特征。 对于每个类别型特征,OneHotEncoder 将其编码成一个长度为类别数量的向量。 每个类别对应一个维度,如果样本的该特征值为该类别,则对应维度置1,其他维度置0。

示例:

代码语言:javascript
复制
List <Row> df = Arrays.asList(
        Row.of("a", 1),
        Row.of("b", 1),
        Row.of("c", 1),
        Row.of("e", 2),
        Row.of("a", 2),
        Row.of("b", 1),
        Row.of("c", 2),
        Row.of("d", 2),
        Row.of(null, 1)
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "query string, weight int");
OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setEncode(Encode.VECTOR);
// 或者单独设置输出列
// OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setOutputCols("output");
one_hot.fit(inOp).transform(inOp).print();

输出结果如下所示:

query

weight

$5$0:1.0

1

$5$1:1.0

1

$5$2:1.0

1

$5$

2

$5$0:1.0

2

$5$1:1.0

1

$5$2:1.0

2

$5$3:1.0

2

$5$4:1.0

1

向量聚合

VectorAssembler 是用于将多列特征合并为单列特征向量的类。它将多个特征列的值合并为一个特征向量,通常用于特征工程的最后阶段,以准备机器学习模型的输入特征。 对于每个样本,VectorAssembler 将选定的特征列的值合并成一个特征向量。特征向量的维度等于选定的特征列数,每个维度对应一个特征列的值。

合并的特征列仅支持数值类型。

示例:

代码语言:javascript
复制
List <Row> df = Arrays.asList(
        Row.of("0", "$6$1:2.0 2:3.0 5:4.3", "3.0 2.0 3.0"),
        Row.of("1", "$8$1:2.0 2:3.0 7:4.3", "3.0 2.0 3.0"),
        Row.of("2", "$8$1:2.0 2:3.0 7:4.3", "2.0 3.0 2.2")
);
MemSourceBatchOp data = new MemSourceBatchOp(df, "id string, c0 string, c1 string");
VectorAssembler res = new VectorAssembler()
        .setSelectedCols("c0", "c1")
        .setOutputCol("table2vec");
res.transform(data).print();

输出结果如下所示:

id

c0

c1

table2vec

0

$6$1:2.0 2:3.0 5:4.3

3.0 2.0 3.0

$9$1:2.0 2:3.0 ... 8:3.0

1

$8$1:2.0 2:3.0 7:4.3

3.0 2.0 3.0

$11$1:2.0 2:3.0 ... 10:3.0

2

$8$1:2.0 2:3.0 7:4.3

2.0 3.0 2.2

$11$1:2.0 2:3.0 ... 10:2.2

特征哈希

FeatureHasher 是用于将多列特征进行哈希映射,将特征合并成特征向量的类。 对于每个样本,将选定的特征列的值进行哈希映射,得到特征向量的维度。每个特征列的值经过哈希函数映射到特征向量的对应维度,形成一个特征向量。 这种方式可以降低特征维度,减少内存和计算资源的消耗,尤其适用于高维稀疏特征。

不限于数值类型的数据

示例:

代码语言:javascript
复制
List<Row> df1 = Arrays.asList(
        Row.of(1.1, true, 2, "A"),
        Row.of(1.1, false, 2, "B"),
        Row.of(1.1, true, 1, "B"),
        Row.of(2.2, true, 1, "A")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df1, "double double, bool boolean, number int, str string");
FeatureHasher binarizer = new FeatureHasher().setSelectedCols("double", "bool", "number", "str").setOutputCol("output").setNumFeatures(3);

输出结果如下所示:

double

bool

number

str

output

1.1000

true

2

A

$3$0:3.0 1:1.1 2:1.0

1.1000

false

2

B

$3$0:3.0 1:1.1 2:1.0

1.1000

true

1

B

$3$0:2.0 1:1.1 2:1.0

2.2000

true

1

A

$3$0:2.0 1:2.2 2:1.0

文本特征生成

DocCountVectorizer 用于将文本数据转换为文本特征向量。它主要适用于文本数据的特征抽取和处理,以便进一步用于机器学习模型的训练和预测。主要用于自然语言处理(NLP)任务,如文本分类、情感分析、主题建模等。

特征抽取过程:

  • 对于每个文本数据,DocCountVectorizer 统计每个词汇在文本中的出现次数,作为特征向量的值。
  • 每个文本对应一个特征向量,特征向量的维度为词汇表的大小。

Alink库封装的DocCountVectorizer支持生成多种类型的特征向量,支持IDF/WORD_COUNT/TF_IDF/Binary/TF。默认是WORD_COUNT特征类型,即单词出现的频率。

示例:

代码语言:javascript
复制
List <Row> df = Arrays.asList(
        Row.of(0, "二手旧书:医学电磁成像"),
        Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"),
        Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),
        Row.of(3, "二手中国糖尿病文献索引"),
        Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline()
        .add(new Segment().setSelectedCol("text")) // 分词
        .add(new DocCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec"));
pipeline.fit(inOp).transform(inOp).print();

输出结果如下所示:

id

text

vec

0

二手 旧书 : 医学 电磁 成像

$37$10:0.1831020481113516 14:0.1831020481113516 ... 34:0.1831020481113516

1

二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969

$37$0:0.04077336356234972 1:0.04077336356234972 ... 35:0.06462425227459469

2

二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社

$37$5:0.0915510240556758 6:0.0915510240556758 ... 36:0.1831020481113516

3

二手 中国 糖尿病 文献 索引

$37$8:0.21972245773362198 9:0.21972245773362198 ... 32:0.21972245773362198

4

二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书

$37$0:0.046209812037329684 1:0.046209812037329684 ... 30:0.07324081924454065

文本哈希特征生成

DocHashCountVectorizer 将文本数据中的每个词汇通过哈希函数映射到特征向量的维度,得到特征向量。 特征向量的维度由用户设置的参数 numFeatures 决定,通常较小以减少维度。

示例:

代码语言:javascript
复制
List <Row> df = Arrays.asList(
        Row.of(0, "二手旧书:医学电磁成像"),
        Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"),
        Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),
        Row.of(3, "二手中国糖尿病文献索引"),
        Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline()
        .add(new Segment().setSelectedCol("text"))
        .add(new DocHashCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec").setNumFeatures(3));
pipeline.fit(inOp).transform(inOp).print();

输出结果如下所示:

id

text

vec

0

二手 旧书 : 医学 电磁 成像

$3$0:-0.7331685343967134 1:-0.5207269374140805

1

二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969

$3$0:-0.776296095243579 1:-0.24504797054780258 2:-0.21559781926450705

2

二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社

$3$0:-0.7331685343967134 1:-0.17357564580469348 2:-0.30543024395805163

3

二手 中国 糖尿病 文献 索引

$3$0:-0.2932674137586854 1:-0.4165815499312644 2:-0.366516292749662

4

二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书

$3$0:-0.5865348275173707 1:-0.34715129160938696 2:-0.24434419516644132

Word2Vec

Word2Vec是Google在2013年开源的一个将词表转为向量的算法,其利用神经网络,可以通过训练,将词映射到K维度空间向量,它主要用于将单词表示成高维空间中的向量,以便能够在计算机上更好地处理自然语言文本。Word2Vec 提供了一种有效的方式来捕获单词之间的语义关系,这对于自然语言处理任务非常有用。

Word2Vec有两种主要模型:Skip-gram和Continuous Bag of Words (CBOW)。 Skip-gram模型是预测上下文单词,而CBOW模型是预测中心单词。

示例:

代码语言:javascript
复制
List <Row> df = Arrays.asList(
        Row.of("A B C")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "tokens string");
Word2Vec word2vec = new Word2Vec().setSelectedCol("tokens").setMinCount(1).setVectorSize(2).setOutputCol("vec");
word2vec.fit(inOp).transform(inOp).print();

输出结果如下所示:

tokens

vec

A B C

0.7309789158041142 0.40841706187852966

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 独热编码
  • 向量聚合
  • 特征哈希
  • 文本特征生成
  • 文本哈希特征生成
  • Word2Vec
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档