专栏首页xingoo, 一个梦想做发明家的程序员NLP1 —— Python自然语言处理环境搭建

NLP1 —— Python自然语言处理环境搭建

最近开始研究自然语言处理了,所以准备好好学习一下,就跟着《Python自然语言处理》这本书,边学边整理吧

安装

Mac里面自带了python2.7,所以直接安装nltk就可以了。

默认执行sudo pip install -U nltk会报错:

Collecting nltk
  Downloading nltk-3.2.4.tar.gz (1.2MB)
    100% |████████████████████████████████| 1.2MB 555kB/s 
Collecting six (from nltk)
  Downloading six-1.11.0-py2.py3-none-any.whl
Installing collected packages: six, nltk
  Found existing installation: six 1.4.1
    DEPRECATION: Uninstalling a distutils installed project (six) has been deprecated and will be removed in a future version. This is due to the fact that uninstalling a distutils project will only partially uninstall the project.
    Uninstalling six-1.4.1:

这是因为系统内部已经有six包了,不能被修改。所以可以跳过six,直接安装nltk

sudo pip install -U nltk --ignore-installed six

这样可以看到输出:

Collecting nltk
  Downloading nltk-3.2.4.tar.gz (1.2MB)
    100% |████████████████████████████████| 1.2MB 552kB/s 
Collecting six
  Downloading six-1.11.0-py2.py3-none-any.whl
Installing collected packages: six, nltk
  Running setup.py install for nltk ... done

测试一下:

xingoodeMacBook-Pro:~ xingoo$ python
Python 2.7.10 (default, Feb  7 2017, 00:08:15) 
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.34)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk

没有错误,说明安装成功了。

下载数据集

然后就可以下载数据集了,执行命令nltk.download()弹出下载对话框。点击下载就可以用nltk为我们提供的语料库了。

参考

《python自然语言处理》

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Floyd

    另一个求解最短路径的经典算法是Floyd,时间复杂度为O(n^3),所以如果只求一个点到另一个点的最短路径,应该用Dijkstra算法,时间复杂度为O(n^2)...

    用户1154259
  • Dijkstra

    迪杰斯特拉算法是典型的求解最短路径的方法。 优点,时间复杂度为O(n2),主要思想就是遍历邻居,找到路径最短的邻居,添加到路径信息里面。再更新这个添加点,是否能...

    用户1154259
  • Prim算法

    普利姆算法,是一种常用的求最小生成树的算法。 最小生成树,使得一个连通图内拥有最小的和。对现实生活中有极大的作用。 主要思路 1 选定一个顶点(与结果无关) 2...

    用户1154259
  • windows环境下搭建python+nltk开发环境

    nltk(Natural Language Tookit)实际上是python的一个开发包。对于自然语言处理任务非常有用。 ==================...

    NateHuang
  • NLTK For Python3版本变化说明

    grammar: ContextFreeGrammar → CFG, WeightedGrammar → PCFG, StatisticalDependency...

    数据饕餮
  • python35下的NLTK工具的安装和配置

    阿小庆
  • [Spark SQL] 源码解析之Optimizer

    optimizer 以及之后的模块都只会在触发了action操作后才会执行。优化器是用来将Resolved LogicalPlan转化为optimized Lo...

    UFO
  • 学界 | 神经网络quine:自我复制 + 解决辅助任务

    选自arXiv 作者:Oscar Chang、Hod Lipson 机器之心编译 参与:程耀彤、路 近日,哥伦比亚大学的研究者发布论文,从生命的角度看待人工智能...

    机器之心
  • 用python进行精细中文分句(基于正则表达式)

    中文分句,乍一看是一个挺简单的工作,一般我们只要找到一个【。!?】这类的典型断句符断开就可以了吗。 对于简单的文本这个做法是已经可行了...

    blmoistawinde
  • sqlite3数据库在自动化中的使用

    之前介绍了在python中怎么对sqlite3数据库进行操作,今天再详细的介绍,怎么把自动化中使用到的数据存储在sqlite3数据库的文件中,然后在自...

    无涯WuYa

扫码关注云+社区

领取腾讯云代金券