Github项目推荐 | 用于自然语言处理的开源 Python 库 —— PyTorch-NLP

PyTorch-NLP 是用于自然语言处理的开源 Python 库,它构建于最新的研究之上,可以帮助开发者快速开发原型。PyTorch 带有预训练嵌入(pre-trained embeddings)、采样器、数据集加载器、神经网络模型和文本编码器。

详细信息可访问 PyTorch-NLP 官方网站:

https://pytorchnlp.readthedocs.io/en/latest/

Github 链接:

https://github.com/PetrochukM/PyTorch-NLP

安装

请先安装 Python 3.5+ 和 PyTorch 0.2.0 及以上版本,然后用 pip 安装 PyTorch-NLP:

pip install pytorch-nlp

可选安装

如果您想使用SpaCy <http://spacy.io/> 中的英文标记器,则需要安装 SpaCy 并下载其英文模型:

pip install spacy
python -m spacy download en_core_web_sm

或者,您可能需要使用 NLTK <http://nltk.org/>的 Moses tokenizer。您必须安装NLTK 并下载所需的数据:

pip install nltk
python -m nltk.downloader perluniprops nonbreaking_prefixes

用法

PyTorch-NLP 的设计思想直观并且简单易用:

  • 加载 FastText,Facebook 的快速文本分类器
from torchnlp.embeddings import FastText
vectors = FastText()
vectors['hello']  # [torch.FloatTensor of size 100]
  • 加载数据集,比如 IMBD
from torchnlp.datasets import imdb_dataset
train = imdb_dataset(train=True)
train[0]  # {'text': 'For a movie that gets..', 'sentiment': 'pos'}
  • 用 torchnlp.metrics 计算 BLEU 分数:
from torchnlp.metrics import get_moses_multi_bleu
hypotheses = ["The brown fox jumps over the dog 笑"]
references = ["The quick brown fox jumps over the lazy dog 笑"]
get_moses_multi_bleu(hypotheses, references, lowercase=True)  # 47.9

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-03-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

在统一的分析平台上构建复杂的数据管道

在Quora上,大数据从业者经常会提出以下重复的问题:什么是数据工程(Data Engineering)? 如何成为一名数据科学家(Data Scientist...

2708
来自专栏机器之心

254页PPT!这是一份写给NLP研究者的编程指南

这份内容干货满满,仅仅只是看了 slide 就知道是非常有意思的一次演讲了。slide 共有 254 页之多,在「赤乐君」知乎专栏分享内容的基础上,机器之心为大...

1184
来自专栏编程

Python数据分析系列(2)——美国纽约皇后区空气质量分析

作者:王大伟 Python爱好者社区唯一小编 博客:https://ask.hellobi.com/blog/wangdawei 关注Python爱好者社区回复...

3025
来自专栏ios 技术积累

ios 百度地图设置BMKAnnotationView层级

产品有一个新需求,就是百度地图上显示的BMKAnnotationView,根据数值越大的放在最上层,原因是因为BMKAnnotationView很多并且有重叠的...

3354
来自专栏CSDN技术头条

Appboy基于MongoDB的数据密集型实践

【编者按】本文摘录自Appboy联合创始人兼CIO Jon Hyman在MongoDB World 2015上的演讲。Appboy正在过手机等新兴渠道尝试一种新...

2077
来自专栏开源FPGA

FPGA设计思想(持续更新)

一、 流水线设计   将原本一个时钟周期完成的较大的组合逻辑通过合理的切割后分由多个时钟周期完成。该部分逻辑运行的时钟频率会有明显对的提升,提高系统的性能用面积...

25110
来自专栏快乐八哥

数据可视化-EChart2.0使用总结1

图表是企业级Web开发必不可少的一个功能点。也是“数据可视化的一个具体呈现”。今天看到阮一峰翻译的“数据可视化:基本图表”一文,同时梳理一下公司现在项目使用的E...

2985
来自专栏哲学驱动设计

重构实践:体验interface的威力(一)

背景     GIX4是一个建筑行业的指标计算软件,用于数据统计、分析。导入的大量数据,大部分呈现逻辑上的树状结构(关于它的重构,见:《重构一个繁琐的数据结构》...

2027
来自专栏Crossin的编程教室

用程序帮你炒股(2)

6月26日A股大跌,据估算市值蒸发4.5万亿。当日的领涨板块,你们感受一下: 银行 -4.66% 食品饮料 -6.94% 建筑装饰 -7.14% 有入市的...

4447
来自专栏Jerry的SAP技术分享

30行代码消费腾讯人工智能开放平台提供的自然语言处理API

腾讯人工智能AI开放平台上提供了很多免费的人工智能API,开发人员只需要一个QQ号就可以登录进去使用。

2844

扫码关注云+社区

领取腾讯云代金券