前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NLTK在去停用词、分词、分句以及词性标注的使用

NLTK在去停用词、分词、分句以及词性标注的使用

作者头像
张凝可
发布2019-08-22 10:57:57
2.1K0
发布2019-08-22 10:57:57
举报
文章被收录于专栏:技术圈技术圈

因为实习的缘故,所以有机会接触到了自然语言处理的一些方面。

这里主要总结一下在python环境下进行自然语言处理的相关包和可能会出现的相关错误,目前接触的都比较Low,但是还是想要记录下来。

Nltk是python下处理语言的主要工具包,可以实现去除停用词、词性标注以及分词和分句等。

安装nltk,我写python一般使用的是集成环境EPD,其中有包管理,可以在线进行安装。如果不是集成环境,可以通过pip install nltk安装。

》pip install nltk #安装nltk

》nltk.download() #弹出一个选择框,可以按照自己需要的语义或者是功能进行安装

一般要实现分词,分句,以及词性标注和去除停用词的功能时,需要安装stopwords,punkt以及

当出现LookupError时一般就是由于缺少相关模块所导致的

就是没有安装stopwords所导致的,可以手动安装,也可以

》nltk.download(‘stopwords’)

如果出现

则是需要安装punkt,这个模块主要负责的是分词功能。同stopwords一样有两种方式安装。

同理当报出

LookupError

Resource ***/maxent_treebank_pos_tagger/

*********************************

对应下载maxent_treebank_pos_tagger就可以,这一部分主要就负责词性标注。

去除停用词,分词以及词性标注的调用方法

from nltk.corpus import stopwords

import nltk

disease_List = nltk.word_tokenize(text)

#去除停用词

filtered = [w for w in disease_List if(w not in stopwords.words('english')]

#进行词性分析,去掉动词、助词等

Rfiltered =nltk.pos_tag(filtered)

Rfiltered以列表的形式进行返回,列表元素以(词,词性)元组的形式存在

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年03月09日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档