首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python R 分词处理

天元突破:

1、win下安装python-jieba库,手动下载放入lib中的site-packages,解压提取jieba文件,注意不要直接自作聪明的将原始文件名改为jieba,这样import会成功,后续调用cut,会报错:module 'jieba' has no attribute 'cut'(摊手,win环境真的disgusting)

2、测试R调用各种编码形式文件无压力,python就极为恶心了,txt需编码成ascii,于是stopwords存了两份不同编码形式文件(估计是我修炼还不到家)

3、最后祝大家新年快乐,身体健康发大财,早日财务自由咯。(丁酉年最后一篇文章喽)

1、背景

最近主要工作就是文本分析啦,说的好像很高大上,其实就是分词,过滤,统计词频,挖掘需求,也没什么高大上,主要难点还是需求挖掘。(挖掘出来还得想弄成什么产品形态)

2、思路

老生常谈了,分词而已,用两种语言实现下(R实现的需求比较全面,python就先能分出来词!安装个包折腾半天)

R

library(jiebaR)

#cutter

head(data)

#封装(过滤疾病)

data_segment

{

cutter

data$x

segment_word

segment_word1]

segment_word

seg

seg

seg

return(seg)

}

#封装(过滤医学词体库)

data_segment

{

cutter

data$x

segment_word

segment_word1]

segment_word

seg

seg

seg

return(seg)

}

data

data_all

result

write.csv(result,"c:/users/administrator/desktop/chunyu_all_result.csv")

顺带加载了下类型,excel关联操作。

Py

多余的话不说啦,新的一年也继续加油!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180212G0L45700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券