机器之心报道
作者:小舟、杜伟
spaCy 3.0 正式版来了。
spaCy 是具有工业级强度的 Python NLP 工具包,被称为最快的工业级自然语言处理工具。它支持多种自然语言处理的基本功能,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。
近日,spaCy v3.0 正式发布,这是一次重大更新。
spcCy 3.0 更新文档地址:https://github.com/explosion/spaCy/releases/tag/v3.0.0
spaCy v3.0 有以下特点:
spaCy v3.0 旨在优化用户的应用体验。用户可以使用强大的新配置系统来描述所有的设置,从而在 PyTorch 或 TensorFlow 等框架中编写支持 spaCy 组件的模型。新的 workflow 系统更加适用于步骤复杂的现代 NLP 流程。
快速安装启动
为了实现最流畅的更新过程,项目开发者建议用户在一个新的虚拟环境中启动:
pip install -U spacy
在具体操作上,用户可以选择自己的操作系统、包管理器、硬件、配置、训练 pipeline,以及选择 pipeline 时可以选择侧重效率性或者准确性。
新功能与改进之处
本次更新的 spaCy v3.0 增添了一些新功能,也进行了一系列改进,具体如下:
58 个训练的 pipeline
用户在下载训练的 pipeline 时,可以使用 spacy download 命令。58 个训练的 pipeline 如下图所示:
部分截图。
用户在自己的数据上训练 pipeline 时可参考训练文档,地址:https://spacy.io/usage/training
已删除或重命名的 API
下图中弃用的方法、属性和参数已经在 v3.0 中删除,其中的大多数已经弃用了一段时间,并且很多以往会引发错误。如果用户使用的是最新版本的 spaCy v2.x,则代码对它们的依赖性不大。
参考链接:
https://explosion.ai/blog/spacy-v3
https://zhuanlan.zhihu.com/p/51425975
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有