Python R 分词处理

文章来源：企鹅号

天元突破：

1、win下安装python-jieba库，手动下载放入lib中的site-packages，解压提取jieba文件，注意不要直接自作聪明的将原始文件名改为jieba，这样import会成功，后续调用cut，会报错：module 'jieba' has no attribute 'cut'（摊手，win环境真的disgusting）

2、测试R调用各种编码形式文件无压力，python就极为恶心了，txt需编码成ascii，于是stopwords存了两份不同编码形式文件（估计是我修炼还不到家）

3、最后祝大家新年快乐，身体健康发大财，早日财务自由咯。（丁酉年最后一篇文章喽）

1、背景

最近主要工作就是文本分析啦，说的好像很高大上，其实就是分词，过滤，统计词频，挖掘需求，也没什么高大上，主要难点还是需求挖掘。（挖掘出来还得想弄成什么产品形态）

2、思路

老生常谈了，分词而已，用两种语言实现下（R实现的需求比较全面，python就先能分出来词！安装个包折腾半天）

代

码

library(jiebaR)

#cutter

head(data)

#封装(过滤疾病）

data_segment

{

cutter

data$x

segment_word

segment_word1]

segment_word

seg

return(seg)

}

#封装(过滤医学词体库)

data_segment

{

cutter

data$x

segment_word

segment_word1]

segment_word

seg

return(seg)

}

data

data_all

result

write.csv(result,"c:/users/administrator/desktop/chunyu_all_result.csv")

顺带加载了下类型，excel关联操作。

代

码

多余的话不说啦，新的一年也继续加油！

发表于: 2018-02-122018-02-12 15:38:00
原文链接：http://kuaibao.qq.com/s/20180212G0L45700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python R 分词处理

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐