专栏首页小鹏的专栏安装和使用NLTK分词和去停词

安装和使用NLTK分词和去停词

安装NLTK可能出现的问题:

1. pip install ntlk

2. 如果遇到缺少stopwords报错如下:(http://johnlaudun.org/20130126-nltk-stopwords/

LookupError:

**********************************************************************

  Resource u'corpora/stopwords' not found. Please use the

  NLTK Downloader to obtain the resource: >>> nltk.download()

  Searched in:

    - 'C:\\Users\\Tree/nltk_data'

    - 'C:\\nltk_data'

    - 'D:\\nltk_data'

    - 'E:\\nltk_data'

    - 'F:\\Program Files (x86)\\python\\nltk_data'

    - 'F:\\Program Files (x86)\\python\\lib\\nltk_data'

    - 'C:\\Users\\Tree\\AppData\\Roaming\\nltk_data'

**********************************************************************

则有一下输入:

In[3]: import nltk

In[4]: nltk.download()

showing infohttp://www.nltk.org/nltk_data/

弹出窗口:

选择Corpora 然后找到stopword list确认,刷新

Out[4]: True

3.如果遇到缺少punkt报错如下:

LookupError:

**********************************************************************

Resource u'tokenizers/punkt/english.pickle' not found. Please

use the NLTK Downloader to obtain the resource:

    >>>nltk.download()

  Searched in:

    - 'C:\\Users\\Tree/nltk_data'

    - 'C:\\nltk_data'

    - 'D:\\nltk_data'

    - 'E:\\nltk_data'

    - 'F:\\Program Files (x86)\\python\\nltk_data'

    - 'F:\\Program Files (x86)\\python\\lib\\nltk_data'

    - 'C:\\Users\\Tree\\AppData\\Roaming\\nltk_data'

**********************************************************************

解决方法

In[5]: nltk.download('punkt')

[nltk_data] Downloading package punkt to

[nltk_data] C:\Users\Tree\AppData\Roaming\nltk_data...

[nltk_data] Unzipping tokenizers\punkt.zip.

Out[5]: True

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Face Detection(OpenCV) Using Hadoop Streaming API 如何使用Python为Hadoop编写一个简单的MapReduce程序,请参考: Here.

    如何使用Python为Hadoop编写一个简单的MapReduce程序,请参考: Here. Face Detection(OpenCV) Using Hado...

    MachineLP
  • Face Recognition(face_recognition) Using Hadoop Streaming API如何使用Python为Hadoop编写一个简单的MapReduce程序,请参考

    如何使用Python为Hadoop编写一个简单的MapReduce程序,请参考: Here. Face Recognition(face_recognition...

    MachineLP
  • [文本语义相似] 基于Word2Vec的wmdistance (Word Mover Distance)

    文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基...

    MachineLP
  • windows环境下搭建python+nltk开发环境

    nltk(Natural Language Tookit)实际上是python的一个开发包。对于自然语言处理任务非常有用。 ==================...

    NateHuang
  • python进行词性分析

    表示python的nltk包真的很好用,本来想着自己从字典里面抓数据的,后来师兄建议用nltk包,

    py3study
  • 初学者|不能不会的NLTK

    本文简绍了NLTK的使用方法,这是一个被称为“使用Python进行计算语言学教学和工作的绝佳工具”。

    yuquanle
  • 学习笔记CB002:词干提取、词性标注、中文切词、文档分类

    英文词干提取器,import nltk,porter = nltk.PorterStemmer(),porter.stem('lying') 。

    利炳根
  • 用 Python 做文本挖掘的流程

    作者:肖智博 来源:https://zhuanlan.zhihu.com/p/19630762 点击阅读原文可进入超链接。 收集数据 数据集。如果是已经被人做...

    小莹莹
  • 开发 | 多用户分布式计算环境Nauta

    Nauta软件为运行深度学习模型训练实验提供了一个多用户的分布式计算环境。你可以通过命令行、Web UI 或者 TensorBoard* 查看和监控实验的结果。...

    AI科技评论
  • 先读懂CapsNet架构然后用TensorFlow实现:全面解析Hinton提出的Capsule

    本文转载于:https://www.jiqizhixin.com/articles/2017-11-05。如有侵权请告知。

    OLDPAN

扫码关注云+社区

领取腾讯云代金券