自然语言处理 | 使用Spacy 进行自然语言处理

Spacy的github地址:https://github.com/explosion/spaCy

主页:https://spacy.io/

一、什么是Spacy

Spacy在它的主页上说它是Python里面的一个工业级别的自然语言处理工具,足见其在自然语言处理方面的优势,所以我们有必要去了解,学习它。Spacy的功能包括词性标注,句法分析,命名实体识别,词向量,与深度学习无缝对接,以及它支持三十多种语言等等。

二、安装

这部分包括Spacy包的安装和它的模型的安装,针对不同的语言,Spacy提供了不同的模型,需要分别安装。

1、Spacy的安装

一般通过pip就可以正常安装

pip install spacy

详细的安装介绍参考:https://spacy.io/usage/

Spacy也是跨平台的,支持windows、Linux、macOS等。

2、模型的安装

github: https://github.com/explosion/spacy-models

对于英语:

python -m spacy download en

或者

python -m spacy download en_core_web_lg

还可以通过URL地址来安装,下面两个都可以,如果pip安装速度慢,可以先下载到本地,使用下面的第一种方法。

pip install /你的/文件目录/en_core_web_sm-2.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.0.0/en_core_web_sm-2.0.0.tar.gz

另外这里提一下,我们每次从github上面clone代码的时候,速度有时候很慢,大概就几十k,我就觉得这太不能让人接受了,小点的项目还可以等,稍微大点的项目可能就要几个小时了,所以就随手百度了一下,还真有提速的办法,下面给个链接,跟着步骤稍稍设置一下,你就看到效果了,这里我就不多说了。

三、一个例子

导入模型

import spacy
nlp = spacy.load('en_core_web_sm')

或者

import en_core_web_sm
nlp = en_core_web_sm.load()

1、实体识别

text = (u"When Sebastian Thrun started working on"
        u" self-driving cars at Google in 2007, "
        u"few people outside of the company took"
        u" him seriously. “I can tell you very "
        u"senior CEOs of major American car companies"
        u" would shake my hand and turn away because"
        u" I wasn’t worth talking to,” said Thrun, "
        u"now the co-founder and CEO of online higher"
        u" education startup Udacity, in an interview"
        u" with Recode earlier this week.")

doc = nlp(text)
print("########################################")

for entity in doc.ents:
        print("{}:{}".format(entity.text, entity.label_))
print("########################################")

########################################

Sebastian Thrun:PERSON

Google:ORG

2007:DATE

American:NORP

Thrun:PERSON

Recode:ORG

earlier this week:DATE

########################################

下面这张表是Spacy里面实体的标签及其表示的含义

PERSON

People, including fictional.

人物

NORP

Nationalities or religious or political groups.

国家、宗教、政治团体

FAC

Buildings, airports, highways, bridges, etc.

建筑、机场、高速公路、桥梁等

ORG

Companies, agencies, institutions, etc.

组织公司、机构等

GPE

Countries, cities, states.

国家、城市、州

LOC

Non-GPE locations, mountain ranges, bodies of water.

山脉、水体等

PRODUCT

Objects, vehicles, foods, etc. (Not services.)

车辆、食物等非服务性的产品

EVENT

Named hurricanes, battles, wars, sports events, etc.

飓风、战争、体育赛事等

WORK_OF_ART

Titles of books, songs, etc.

书名、歌名等

LAW

Named documents made into laws.

法律文书

LANGUAGE

Any named language.

语言

DATE

Absolute or relative dates or periods.

日期

TIME

Times smaller than a day.

小于1天的时间

PERCENT

Percentage, including "%".

百分比

MONEY

Monetary values, including unit.

货币价值

QUANTITY

Measurements, as of weight or distance.

度量单位

ORDINAL

"first", "second", etc.

序数词

CARDINAL

Numerals that do not fall under another type.

数量词

2、文本相似度

doc1 = nlp(u"my fries were super gross")
doc2 = nlp(u"such disgusting fries")
similarity = doc1.similarity(doc2)
print(similarity)

# 0.713970251872

今天先这样,后面还会继续介绍Spacy的其他功能,敬请期待~

加快git clone的方法:http://blog.51cto.com/11887934/2051323

原文发布于微信公众号 - 机器学习和数学(ML_And_Maths)

原文发表时间:2018-08-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏阮一峰的网络日志

元数据(MetaData)

元数据是用来描述数据的数据(Data that describes other data)。单单这样说,不太好理解,我来举个例子。 下面是契诃夫的小说《套中人》...

32810
来自专栏龙行天下CSIEM

科学瞎想系列之五十一 电流传感器(1)

搞电的宝宝们经常会和电流、电压之类的东东打交道,电压的测量比较方便,只需把电压表的两端直接怼到被测的两点上就可轻松测得这两点之间的电压,当然在高电压场合这样干...

3665
来自专栏腾讯数据中心

数据中心专用术语词典首发!破译圈内暗语

随着互联网数据中心的蓬勃发展,IDC相关的讯息也呈几何级喷发。不胜枚举的行业术语、不拘一格的表达方式,对传递数据中心相关信息的影响已不可小觑。本文可以帮助大家更...

7744
来自专栏Zchannel

影驰发布旗下最大容量SSD:2TB

1054
来自专栏FreeBuf

DIY一个自己喜欢的瓦力吧!

随着科学技术的快速发展,AI技术已经越来越接近人们的日常生活,人们对智能车的研究有增无减,智能小车已然成为以后科学技术发展的新思路和新方向。智能小车可以按照预先...

1420
来自专栏龙行天下CSIEM

科学瞎想系列之三十八 船舶动力系统(4)

今天说说基于直流组网的综合电力系统。所谓直流组网就是船舶电网采用直流电制。相应地发电模块的发电机均采用直流发电机或交流发电机加整流装置整流后再并联组成直...

2904
来自专栏Zchannel

Z科技资讯

912
来自专栏Vamei实验室

程序员电邮札记

“Across the Great Wall, we can reach every corner in the world”。 这是1987年从中科院计算机所...

1827
来自专栏新智元

最新数据科学和机器学习 MOOC 资源,成为高手的个性化课程组合

【新智元导读】今天我们要介绍的主人公叫 David Venturi。一年前他还没有编程背景,凭着对数学的爱好开始上网自学。后来他被加拿大一所大学的计算机科学专业...

36710
来自专栏AI科技评论

视频 | P图现在都这么狠了吗?英伟达新算法,轻松帮你P掉前男友

这里是,雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。

1352

扫码关注云+社区

领取腾讯云代金券