首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Github项目推荐 | 用于自然语言处理的开源 Python 库 —— PyTorch-NLP

Github项目推荐 | 用于自然语言处理的开源 Python 库 —— PyTorch-NLP

作者头像
AI研习社
发布2018-07-26 15:14:19
1.3K0
发布2018-07-26 15:14:19
举报
文章被收录于专栏:AI研习社AI研习社

PyTorch-NLP 是用于自然语言处理的开源 Python 库,它构建于最新的研究之上,可以帮助开发者快速开发原型。PyTorch 带有预训练嵌入(pre-trained embeddings)、采样器、数据集加载器、神经网络模型和文本编码器。

详细信息可访问 PyTorch-NLP 官方网站:

https://pytorchnlp.readthedocs.io/en/latest/

Github 链接:

https://github.com/PetrochukM/PyTorch-NLP

安装

请先安装 Python 3.5+ 和 PyTorch 0.2.0 及以上版本,然后用 pip 安装 PyTorch-NLP:

pip install pytorch-nlp

可选安装

如果您想使用SpaCy <http://spacy.io/> 中的英文标记器,则需要安装 SpaCy 并下载其英文模型:

pip install spacy
python -m spacy download en_core_web_sm

或者,您可能需要使用 NLTK <http://nltk.org/>的 Moses tokenizer。您必须安装NLTK 并下载所需的数据:

pip install nltk
python -m nltk.downloader perluniprops nonbreaking_prefixes

用法

PyTorch-NLP 的设计思想直观并且简单易用:

  • 加载 FastText,Facebook 的快速文本分类器
from torchnlp.embeddings import FastText
vectors = FastText()
vectors['hello']  # [torch.FloatTensor of size 100]
  • 加载数据集,比如 IMBD
from torchnlp.datasets import imdb_dataset
train = imdb_dataset(train=True)
train[0]  # {'text': 'For a movie that gets..', 'sentiment': 'pos'}
  • 用 torchnlp.metrics 计算 BLEU 分数:
from torchnlp.metrics import get_moses_multi_bleu
hypotheses = ["The brown fox jumps over the dog 笑"]
references = ["The quick brown fox jumps over the lazy dog 笑"]
get_moses_multi_bleu(hypotheses, references, lowercase=True)  # 47.9
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档