前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中文NLP笔记:2. 中文分词的工具 jieba

中文NLP笔记:2. 中文分词的工具 jieba

作者头像
杨熹
发布2019-01-28 11:41:04
7470
发布2019-01-28 11:41:04
举报
文章被收录于专栏:杨熹的专栏杨熹的专栏

中文分词

中文分词的工具有

  中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等


其中 jieba 分词可以做下面这些事情:

  1. 精确分词

  试图将句子最精确地切开

  2. 全模式

  把句子中所有的可能是词语的都扫描出来,速度非常快,但不能解决歧义

  3. 搜索引擎模式

  在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

  4. 用 lcut 生成 list

  jieba.lcut 对 cut 的结果做了封装,l 代表 list,即返回的结果是一个 list 集合

  5. 获取词性

  jieba.posseg 模块实现词性标注

  6. 获取分词结果中词列表的 top n

  7. 自定义添加词和字典

  使用默认分词,是识别不出一句话中的新词,需要添加新词到字典

  8. 还可以做:

  关键词提取、自动摘要、依存句法分析、情感分析等任务


学习资料:

《中文自然语言处理入门实战》

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.01.19 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档