前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python使用jieba实现中文文档分词和去停用词

python使用jieba实现中文文档分词和去停用词

作者头像
IT小白龙
修改2019-06-19 17:33:51
2.6K0
修改2019-06-19 17:33:51
举报
文章被收录于专栏:hadoop学习笔记hadoop学习笔记

分词工具的选择:

  现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。

分词前的准备:

待分词的中文文档

存放分词之后的结果文档

中文停用词文档(用于去停用词,在网上可以找到很多)

分词之后的结果呈现:

 去停用词和分词前的中文文档
去停用词和分词前的中文文档
去停用词和分词之后的结果文档
去停用词和分词之后的结果文档

分词和去停用词代码实现:

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档