特征工程之文本特征抽取

文章来源：企鹅号 - 数据挖掘及分析

击上方

“蓝色字”

可关注我们！

今日分享：英文及中文文本特征抽取

一：文本特征抽取API

需要注意的是该类在.text模块下

二：CountVectorizer类语法介绍

三：文本特征抽取流程

实例化类CountVectorizer()

调用fit_transform方法输入数据并转换。注意返回格式，利用 toarray() 将sparse矩阵结果转换为 ndarray 数组

四：代码演示

英文文本特征抽取

英文文本特征抽取输出结果

注：传入文本训练时，以包含字符串的列表的形式传入，对于英文分词，其默认空格为分隔符，对于单个字母不作为特征保留，直接舍弃，比如上述这种的字母 i 就不在特征词列表内。

对于第一句话 'life is short，i like Python' 其特征为 [0 1 1 1 0 1 1]，再对照着所有特征名称列表来看 ['dislike', 'is', 'life', 'like', 'not', 'python', 'short']，这句话中只出现了 life is short like Python 这五个词，且词频均为1，所以其特征中出现了五个1，其余两个0表示未出现的词 dislike not. 第二句话情况类似，不再阐述。

中文文本特征抽取

中文文本特征抽取输出结果

注：传入中文文本时也是以包含字符串的列表形式传入的，在中文文本分词中，单个汉字也直接默认舍弃，不作为特征保留。具体每一个中文文本与其特征列表的对应过程可参照上述对英文文本的说明过程，情况类似。

再次强调：特征列表中的数值表示的是某个词在该文本中的词频数。

公众号QQ群

扫QQ群二维码进交流学习群

发表于: 2018-10-032018-10-03 20:00:33
原文链接：https://kuaibao.qq.com/s/20181003G19MI600?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

特征工程之文本特征抽取

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐