天元突破:
1、win下安装python-jieba库,手动下载放入lib中的site-packages,解压提取jieba文件,注意不要直接自作聪明的将原始文件名改为jieba,这样import会成功,后续调用cut,会报错:module 'jieba' has no attribute 'cut'(摊手,win环境真的disgusting)
2、测试R调用各种编码形式文件无压力,python就极为恶心了,txt需编码成ascii,于是stopwords存了两份不同编码形式文件(估计是我修炼还不到家)
3、最后祝大家新年快乐,身体健康发大财,早日财务自由咯。(丁酉年最后一篇文章喽)
1、背景
最近主要工作就是文本分析啦,说的好像很高大上,其实就是分词,过滤,统计词频,挖掘需求,也没什么高大上,主要难点还是需求挖掘。(挖掘出来还得想弄成什么产品形态)
2、思路
老生常谈了,分词而已,用两种语言实现下(R实现的需求比较全面,python就先能分出来词!安装个包折腾半天)
R
代
码
library(jiebaR)
#cutter
head(data)
#封装(过滤疾病)
data_segment
{
cutter
data$x
segment_word
segment_word1]
segment_word
seg
seg
seg
return(seg)
}
#封装(过滤医学词体库)
data_segment
{
cutter
data$x
segment_word
segment_word1]
segment_word
seg
seg
seg
return(seg)
}
data
data_all
result
write.csv(result,"c:/users/administrator/desktop/chunyu_all_result.csv")
顺带加载了下类型,excel关联操作。
Py
代
码
多余的话不说啦,新的一年也继续加油!
领取专属 10元无门槛券
私享最新 技术干货