专栏首页PPV课数据科学社区号称世界最快句法分析器,Python高级自然语言处理库spaCy

号称世界最快句法分析器,Python高级自然语言处理库spaCy

spaCy是Python和Cython中的高级自然语言处理库,它建立在最新的研究基础之上,从一开始就设计用于实际产品。spaCy带有预先训练的统计模型和单词向量,目前支持20多种语言的标记。它具有世界上速度最快的句法分析器,用于标签的卷积神经网络模型,解析和命名实体识别以及与深度学习整合。它是在MIT许可下发布的商业开源软件。

spaCy项目由@honnibal和@ines维护,虽然无法通过电子邮件提供个人支持。但开源者相信,如果公开分享,会让帮助更有价值,可以让更多人从中受益。(Github官方地址:https://github.com/explosion/spaCy#spacy-industrial-strength-nlp)

spaCy的特征:

  • 世界上最快的句法分析器
  • 实体命名识别
  • 非破坏性标记
  • 支持20多种语言
  • 预先训练的统计模型和单词向量
  • 易于深度学习模型的整合
  • 一部分语音标记
  • 标签依赖分析
  • 语法驱动的句子分割
  • 可视化构建语法和NER
  • 字符串到哈希映射更便捷
  • 导出numpy数据数组
  • 有效的二进制序列化
  • 易于模型打包和部署
  • 最快的速度
  • 强烈严格的评估准确性

安装spaCy

pip

使用pip,spaCy版本目前仅作为源包提供。

  • pip install spacy

在使用pip时,通常建议在虚拟环境中安装软件包以避免修改系统状态:

  • venv .envsource .env/bin/activate
  • pip install spacy

conda

通过社区开发者的努力,终于重新添加了conda支持。现在可以通过conda-forge安装spaCy:

  • conda config –add channels conda-forge
  • conda install spacy

更新spaCy

spaCy的一些更新可能需要下载新的统计模型,如果正在运行spaCy v2.0或更高版本,则可以使用validate命令来检查安装的模型是否兼容,如果不兼容,请打印有关如何更新的详细信息:

  • pip install -U spacy
  • spacy validate

如果已经训练了自己的模型,请记住,训练和运行时的输入必须匹配。在更新spaCy之后,建议用新版本重新训练模型。

下载模型

从v1.7.0开始,spaCy的模型可以作为Python包安装。这意味着它们是应用程序的组件,就像任何其他模块一样。 可以使用spaCy的下载命令来安装模型,也可以通过将pip指向路径或URL来手动安装模型。

加载和使用模型

要加载模型,请在模型的快捷链接中使用spacy.load():

如果已经通过pip安装了一个模型,也可以直接导入它,然后调用它的load()方法:

支持旧版本

如果使用的是旧版本(v1.6.0或更低版本),则仍然可以使用python -m spacy.en.download all或python -m spacy.de.download all从spaCy下载并安装旧模型。.tar.gz存档也附加到v1.6.0版本,要手动下载并安装模型,请解压存档,将包含的目录放入spacy / data,并通过spacy.load(’en’)或spacy.load(’de’)加载模型。

从源代码编译

另一种安装spaCy的方法是克隆它的GitHub仓库,并从源代码构建它。 如果要更改代码库,常见方法是需要确保你有一个由包含头文件,编译器,pip,virtualenv和git的Python发行版组成的开发环境。编译器部分是最棘手的。,如何做到这一点取决于你的系统。有关详细信息,请参阅Ubuntu,OS X和Windows上的说明。

与通过pip进行常规安装相比,requirements.txt会额外安装Cython等开发人员依赖项。 有关更多详细信息和说明,请参阅有关从源代码编译spaCy和快速启动小部件的文档,以获取适用于您平台和Python版本的正确命令,而不是上面的详细命令,你也可以使用下面的结构命令,所有命令都假定虚拟环境位于一个目录.env中。如果使用的是其他目录,则可以通过环境变量VENV_DIR进行更改,例如VENV_DIR =“。custom-env”fab clean make。

Ubuntu

通过apt-get安装系统级依赖关系:

  • sudo apt-get install build-essential python-dev git

macOS / OS X

安装最新版本的XCode,包括所谓的“命令行工具”。 macOS和OS X预装了Python和git。

Windows

安装与用于编译Python解释器的版本相匹配的Visual Studio Express或更高版本。官方发行版是VS 2008(Python 2.7),VS 2010(Python 3.4)和VS 2015(Python 3.5)。

运行测试

spaCy带有一个广泛的测试套件。 首先,找出spaCy的安装位置:

  • python -c “import os; import spacy; print(os.path.dirname(spacy.__file__))”

然后在该目录下运行。The flags–vectors,–slow 和–model是可选的,并启用额外的测试:

  • #make sure you are using recent pytest version
  • python -m pip install -U pytest
  • python -m pytest <

End.

来自36大数据

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【学习】公司的大数据业务为什么都基于Hadoop方案

    选择Hadoop的原因主要有以下三点:1.降低成本;2.生态圈成熟;3.可以解决问题。 ?   一、可以帮助我们解决什么问题   现在不管是在国内外的大公司,对...

    小莹莹
  • R数据可视化之ggplot2 (一)

    学完R语言的基本操作后,我们还可以继续学习R的几大著名而且使用强大的包,今天讲其中的一个,就是ggplot2,至于这个包的评价和地位,我就不多说了,感兴趣可以百...

    小莹莹
  • 数据深度探秘:网络大剧掘金记

    这两年电视剧行业可谓是迎来了“大年”,每年各种大剧、超级大剧接连出现,而且一年比一年强。这不,今天小编就有幸参加了一个被公认为能媲美去年《离婚律师》的,2015...

    小莹莹
  • 13张动图助你彻底看懂马尔科夫链、PCA和条件概率!

    [ 导读 ]马尔科夫链、主成分分析以及条件概率等概念,是计算机学生必学的知识点,然而理论的抽象性往往让学生很难深入地去体会和理解。而本文,将这些抽象的理论概念,...

    数据派THU
  • 盘点“BAT+3M”五大互联网巨头2014投资布局

    虽然过年,我们也会为您持续分享,2015的大数据文摘内容将更加丰富、有料、有趣,值得期待!同时,我们也希望有能力、愿分享的你加入文摘,和我们一起创造价值。

    大数据文摘
  • 工具资源系列之给虚拟机装个windows 原

    前面我们介绍了如何在 mac 宿主机安装 VMware 虚拟机软件,本节我们将继续介绍如何给虚拟机安装镜像,切换不同的操作系统.

    雪之梦技术驿站
  • FPGA程序升级

    Xilinx的双镜像方案成为Multiboot。本文对Xilinx 7系列的MulTIboot做一些简单介绍。

    瓜大三哥
  • 区块链技术的历史发展的不同阶段

    1982年 拜占庭将军问题 Leslie Lamport等人提出拜占庭将军问题(Byzantine Generals Problem),把军中各地军队彼此取...

    企鹅号小编
  • TKE标准化 - 通过Dockerfile制作标准化Docker基础镜像和业务镜像(一)

    Gitlab Dockerfile文件会引用腾讯云镜像仓库中的Docker基础镜像,将源代码添加至Docker基础镜像中,打包成Docker业务镜像。部署是基于...

    亮哥说TKE
  • Docker之 - 使用镜像和仓库

    上一篇文章中,我们学习了包括 docker run 在内的许多对容器进行操作的基本指令,那么在本节中,我们主要探讨 Docker 镜像的一些概念,比如什么是镜像...

    cxuan

扫码关注云+社区

领取腾讯云代金券