专栏首页磐创AI技术团队的专栏Python NLP库top6的介绍和比较

Python NLP库top6的介绍和比较

阅读将近3分钟

自然语言处理(NLP)在今天已经变得越来越流行,尤其是在深度学习迅猛发展的大背景下变得更加引人注目。NLP属于人工智能的一个领域,旨在理解文本和从中提取重要信息,并在文本数据上做进一步的训练。NLP的主要任务包括了语音识别和生成,文本分析,情感分析,机器翻译等。

现下已经有许多工具库被设计来解决NLP问题。今天,我们根据我们的经验列举概述了六个最实用最受欢迎的自然语言处理库,并对它们进行比较。不过我们列举的这几个库在功能上,在解决的任务目标上,只有部分的重叠,所以有时很难对它们进行直接比较。我们将围绕一些每个NLP库共有的特性来进行比较。

一. 综述

NLTK (Natural Language Toolkit) 用于执行诸如分词,词形还原,词干提取,解析,词性标注等任务。该库包含的工具可用于几乎所有NLP任务。

Spacy NLTK的主要竞争对手。这两个库可用于相同的任务。

Scikit-learn 为机器学习提供了一个包罗万象的工具库,这其中就包含了用于文本预处理的工具。

Gensim 一个被用于主题和向量空间建模,计算文档相似性的工具包。

Pattern 主要作为Web挖掘模块被使用。因此,它仅被用来执行NLP的辅助类任务。

Polyglot NLP的另一个python包。它不是很受欢迎,但也可以用于各种NLP任务。

为了使比较更加清晰具体,我们制作了一张表格来展示每个库的优缺点。

二. 结论

在本文中,我们比较了六个十分流行的自然语言处理库的部分功能。虽然它们大多数提供了解决相同任务的工具,但有些也使用独特的方法来解决特定问题。当然,今天NLP最受欢迎的软件包依然是NLTK和Spacy。他们彼此也是NLP领域的主要竞争对手。在我们看来,它们之间的区别主要在于解决问题的方法论不一样。

NLTK更具学术性。您可以使用它来尝试不同的方法和算法,或将它们组合起来等等。相反,Spacy为每个问题提供了一个开箱即用的解决方案。你不必考虑哪种方法更好:Spacy的作者已经给你想好了。此外,Spacy非常快(比NLTK快几倍)。一个缺点是Spacy支持的语言数量有限,但是支持的语言数量一直在增加。所以,我们认为Spacy在大多数情况下都是最佳选择,但如果你想尝试一些特别的东西,你可以使用NLTK。

尽管这两个库很受欢迎,但你依然还有许多其他不同的选择,如何选择NLP包取决于您希望解决的具体问题是什么。所以,如果你碰巧知道其他有用的NLP库,也可以在评论区告诉我们的读者。(编译自:medium)

本文分享自微信公众号 - 磐创AI(xunixs)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 七大Github机器学习热门项目

    来源 | analyticsvidhya.com 【磐创AI导读】:让我们一起来看下近期热门的机器学习Github仓库,包括了自然语言处理(NLP)、计算机视觉...

    磐创AI
  • 干货 | 史上最详尽的NLP预处理模型汇总

    【前言】近年来,自然语言处理(NLP)的应用程序已经无处不在。NLP使用率的快速增长主要归功于通过预训练模型实现的迁移学习概念,迁移学习本质上是在一个数据集上训...

    磐创AI
  • 数据可视化工具Visdom

    Visdom,用于创建、组织和共享实时丰富数据可视化的灵活工具。支持Python。

    磐创AI
  • Django配置runserver实现远程访问

    如果是在另一台电脑上web访问要用 python manage.py ip:port (一般使用8000)的形式;监听所有ip用0.0.0.0如下:

    Devops海洋的渔夫
  • ARES Tech备受Google青睐的区块链社交游戏网络

    柏林时间5月16日下午,ARES Tech在Google 柏林办公室与Google创业及投资团队就市场推广层面的战略方向完成了首次会谈。

    区块链领域
  • 清空messages没有权限的解决方法

    一大早接到报警提示系统盘容量不足了,冲到/var/log下查看messages日志已经很大了,所以就想着把messages清空一下,以此来释放空间.在删除的时...

    行 者
  • 如何用开源bi,打造自己的轻量级bi系统

    对于程序员来说,开源的东西都是好的,别的不说,因为可以自己自己随意开发,毕竟每个人都喜欢自己写的代码嘛,也或者,就是不想花钱哈哈哈哈(扎心了)

    数据分析的那些事儿
  • CTF实战19 渗透测试-主机信息探测

    其原理是不同厂家的IP协议栈实现之间存在许多细微的差别,通过这些差别就能对目标系统的操作系统加以猜测

    用户1631416
  • Caffe2 - (十七) 基于 FashionMnist 数据集的 GPU 训练与测试

    [1] - Mnist using caffe2 with Specific GPU use

    AIHGF
  • Ubuntu下编译安装QEMU

    由于环境需求,今天在ubuntu14.04的环境下手动编译安装了QEMU2.1.2。

    DevinGeng

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动