fastNLP是一款轻量级的自然语言处理(NLP)工具包,目标是快速实现NLP任务以及构建复杂模型。
fastNLP具有如下的特性:
fastNLP 依赖以下包:
其中torch的安装可能与操作系统及 CUDA 的版本相关,请参见 PyTorch 官网 。在依赖包安装完成后,您可以在命令行执行如下指令完成安装
pip install fastNLP
python -m spacy download en
中文文档、教程
大部分用于的 NLP 任务神经网络都可以看做由词嵌入(embeddings)和两种模块:编码器(encoder)、解码器(decoder)组成。
以文本分类任务为例,下图展示了一个BiLSTM+Attention实现文本分类器的模型流程图:
fastNLP 在 embeddings 模块中内置了几种不同的embedding:静态embedding(GloVe、word2vec)、上下文相关embedding (ELMo、BERT)、字符embedding(基于CNN或者LSTM的CharEmbedding)
与此同时,fastNLP 在 modules 模块中内置了两种模块的诸多组件,可以帮助用户快速搭建自己所需的网络。两种模块的功能和常见组件如下:
fastNLP的大致工作流程如上图所示,而项目结构如下:
这一部分的内容主要展示如何使用fastNLP实现序列标注(Sequence labeling)任务。您可以使用fastNLP的各个组件快捷,方便地完成序列标注任务,达到出色的效果。在阅读这篇教程前,希望您已经熟悉了fastNLP的基础使用,尤其是数据的载入以及模型的构建。通过这个小任务,能让您进一步熟悉fastNLP的使用。
命名实体识别任务是从文本中抽取出具有特殊意义或者指代性非常强的实体,通常包括人名、地名、机构名和时间等。如下面的例子中
我来自复旦大学。
其中“复旦大学”就是一个机构名,命名实体识别就是要从中识别出“复旦大学”这四个字是一个整体,且属于机构名这个类别。这个问题在实际做的时候会被 转换为序列标注问题
针对"我来自复旦大学"这句话,我们的预测目标将是[O, O, O, B-ORG, I-ORG, I-ORG, I-ORG],其中O表示out,即不是一个实体,B-ORG是ORG( organization的缩写)这个类别的开头(Begin),I-ORG是ORG类别的中间(Inside)。
在本tutorial中我们将通过fastNLP尝试写出一个能够执行以上任务的模型。
fastNLP的数据载入主要是由Loader与Pipe两个基类衔接完成的,您可以通过 使用Loader和Pipe处理数据 了解如何使用fastNLP提供的数据加载函数。下面我们以微博命名实体任务来演示一下在fastNLP进行序列标注任务。
首先选择需要使用的Embedding类型。关于Embedding的相关说明可以参见 使用Embedding模块将文本转成向量 。在这里我们使用通过word2vec预训练的中文汉字embedding。
下面我们选择用来评估模型的metric,以及优化用到的优化函数。
训练结束之后过,可以通过 Tester
测试其在测试集上的性能
在fastNLP使用Bert进行任务,您只需要把 fastNLP.embeddings.StaticEmbedding
切换为 fastNLP.embeddings.BertEmbedding
(可修改 device 选择显卡)。
输出为:
可以看出通过使用Bert,效果有明显的提升,从48.2提升到了64.1。