windows环境下搭建python+nltk开发环境

nltk(Natural Language Tookit)实际上是python的一个开发包。对于自然语言处理任务非常有用。

===============================================================================================

NLTK 2.0官网http://nltk.org/install.html

===============================================================================================

在windows 32-bit 下的安装步骤如下:

1、Install Python

2、Install Numpy (optional)

3、Install NLTK

4、Install PyYAML

5、Test installation: Start>Python27, then type import nltk

===============================================================================================

1、首先,安装python 2.7

  详见http://blog.sina.com.cn/s/blog_8af1069601019opa.html

===============================================================================================

2、安装Numpy(可选操作)

http://sourceforge.net/projects/numpy/files/NumPy/1.6.2/numpy-1.6.2-win32-superpack-python2.7.exe/download

  -》直接下载

  -》双击运行,下一步下一步点击。

 -》安装完成。

===============================================================================================

3、安装NLTK。

  https://pypi.python.org/pypi/nltk/2.0.4

  -》nltk-2.0.4.win32.exe (md5)(Python 2.5 or higher)

  -》双击运行,一次点击下一步

 -》安装完成

===============================================================================================

4、安装PyYAML。

http://pyyaml.org/wiki/PyYAML

  -》Download and Installation-》Windows installers:

  -》http://pyyaml.org/download/pyyaml/PyYAML-3.10.win32-py2.7.exe (for Python 2.7)

  -》双击运行

 -》完成。

===============================================================================================

5、NLTK数据源下载。

  -》在python IDLE中键入:

   >>> import  nltk

   >>> nltk.download()

   会输出:showing info http://nltk.github.com/nltk_data/

   并出现图:

 -》选择book,设定好下载路径Download Directory(例如设定D:\nltk_data)。

    然后点击Download,系统就开始下载NLTK的数据包了,下载的时间比较漫长,大家要耐心等待。

-》期间可能会出现数据包无法下载的情况,如图:

-》选择Cancel,打开D:\nltk_data\corpora下删除对应数据包,然后双击重新开始即可。

-》或者也可以到NLTK Corpora:http://nltk.org/nltk_data/ 来手动下载。

    这个页面下的文档就是上图包含的所有的内容

 -》下载数据完成。

===============================================================================================

6、来一个简单的nltk功能小测试

   输入:from nltk.book import  *

   >>> from nltk.book import  *

   输出:

*** Introductory Examples for the NLTK Book ***

Loading text1, ..., text9 and sent1, ..., sent9

Type the name of the text or sentence to view it.

Type: 'texts()' or 'sents()' to list the materials.

text1: Moby Dick by Herman Melville 1851

text2: Sense and Sensibility by Jane Austen 1811

text3: The Book of Genesis

text4: Inaugural Address Corpus

text5: Chat Corpus

text6: Monty Python and the Holy Grail

text7: Wall Street Journal

text8: Personals Corpus

text9: The Man Who Was Thursday by G . K . Chesterton 1908

===============================================================================================

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Google Dart

Dart 服务端开发 文件上传 原

1132
来自专栏Java帮帮-微信公众号-技术文章全总结

Web-第二十一天 Web商城实战一【悟空教程】

public class BaseServlet extends HttpServlet {

2054
来自专栏菩提树下的杨过

setInterval与clearInterval使用示例

setInterval是一个很有用的js函数,可以用来重复执行某些功能,利用这个我们可以实现一些很有趣的功能,比如: 不刷新页面的情况下,"实时"获取其它会员给...

2235
来自专栏技术博文

excel导入与导出

基本上导出的文件分为两种: 1:类Excel格式,这个其实不是传统意义上的Excel文件,只是因为Excel的兼容能力强,能够正确打开而已。修改这种文件后再保存...

3026
来自专栏前端小叙

daterangepicker日历插件使用参数注意问题

显示具体时间时分秒: timePicker设置为true,//有些资料写的pickerTime不太对 重点大坑:修改时间默认展示格式,把fomat写在local...

3375
来自专栏FreeBuf

远程RPC溢出EXP编写实战之MS06-040

0x01 前言 MS06-040算是个比较老的洞了,在当年影响十分之广,基本上Microsoft大部分操作系统都受到了影响,威力不亚于17年爆出的”永恒之蓝”漏...

30410
来自专栏Kubernetes

cluster-proportional-autoscaler源码分析及如何解决KubeDNS性能瓶颈

Author: xidianwangtao@gmail.com 工作机制 cluster-proportional-autoscaler是kubernetes的...

57910
来自专栏JackieZheng

Spring实战——XML和JavaConfig的混合配置

前言 看了园龄已经两年多了,再不能写完内容直接点击发布,留下一片密密麻麻的文字让别人看的头昏脑涨。所以现在每次写完主要内容后,还需要对于格式稍稍调整下。那么有没...

3306
来自专栏三流程序员的挣扎

Android 优化——内存优化

在 GC 的过程中,其它在工作的线程会暂停,包括负责绘制的 UI 线程,并且在不同区域的内存释放速度也有一定的差异,但不管在哪个区域,都要到这次 GC 内存回收...

2891
来自专栏草根专栏

从头编写 asp.net core 2.0 web api 基础框架 (3)

Github源码地址:https://github.com/solenovex/Building-asp.net-core-2-web-api-starter-...

4987

扫码关注云+社区

领取腾讯云代金券