基于stanza实现Python3调用Stanford NLP

stanford NLP(源码:https://github.com/stanfordnlp/CoreNLP)是业界非常著名的自然语言处理(NLP)套件之一,提供了面向多种语言的多种自然语言处理任务,具体如下:

Stanford Parser

Stanford POS Tagger

Stanford Named Entity Recognizer

Stanford RegexNER

Stanford Coreference Resolution

Stanford Word Segmenter

Stanford Classifier

Stanford EnglishTokenizer

Stanford TokensRegex

Stanford Temporal Tagger (SUTime)

Stanford Pattern-based Information Extraction and Diagnostics (SPIED)

Stanford Relation Extractor

(1)stanza工程介绍

实现python来调用stanford NLP,是PYTHON程序员进行数据处理经常需要用到的工具,coreNLP本身也提供了官方进行python调用的程序包(https://github.com/stanfordnlp/python-stanford-corenlp),而本文主要是基于stanforfd提供的另外一个开源程序stanza(https://github.com/stanfordnlp/stanza)来实现python调用。

其介绍如下:

Stanza is the Stanford NLP group’s shared repository for Python infrastructure. The goal of Stanza is not to replace your modeling tools of choice, but to offer implementations for common patterns useful for machine learning experiments.

(2)stanza调用的步骤

A:启动coreNLP服务,在下载包中,进行服务的启动

# Run the server using all jars in the current directory (e.g., the CoreNLP home directory)
java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000

主要启动界面如下:

B:在浏览器中输入网址:http://localhost:9000,可以进行测试和查看NLP处理结果。

(3)基于stanza来实现corenlp调用。

这里采用python3来进行源码的重构,去掉一些原始python2.*风格的错误。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏携程技术中心

干货 | 如果信息泄露不可避免,我们该如何保护用户密码?

作者简介 张辉,就职于携程技术中心信息安全部,负责安全产品的设计与研发。 作为互联网公司的信息安全从业人员经常要处理撞库扫号事件,产生撞库扫号的根本原因是一些企...

3537
来自专栏云端漫步

安全通信TLS介绍

现在我们每天都离不开网络,计算机之间的通信安全是怎么保证的。在这篇文章中,将介绍TLS技术是怎么为安全的通信保驾护航的。

1494
来自专栏腾讯技术工程官方号的专栏

让大象起舞:HTTPS 计算性能优化

HTTPS 很安全,与此同时却又要消耗非常多的CPU资源,STGW 针对 nginx 和 openssl 进行了大量优化,用以提升 HTTPS 的计算性能和访问...

2.2K3
来自专栏黑白安全

蓝牙加密配对漏洞曝光:请速更新操作系统或驱动程序

据外媒报道,最近曝出的一个加密错误(Crypto Bug),对苹果、博通、英特尔、高通等硬件供应商的蓝牙实施和操作系统程序都产生了较大的影响。其原因是支持蓝牙的...

1041
来自专栏上善若水

0x03 spacemacs 的简单定制

古语有说:工欲善其事,必先利其器; Emacs无疑是编程的神器。通过这一系列的小文章,让我们一起记录熟练使用和打造这一神兵利器。

1456
来自专栏青蛙要fly的专栏

零基础学区块链(一)

最近因为项目需要,都在学习区块链,提到区块链,大家第一反应肯定是比特币,在我最刚开始学习的时候是去看的比特币的相关知识。这次先讲解大概的概念。后续再写详细的技术...

1004
来自专栏FreeBuf

分析与总结常见勒索软件的加密算法

1、引言 1.1勒索软件 勒索软件(ransomware)是一种运行在计算机上的恶意软件,通过绑架用户文件,使用户数据资产或计算资源无法正常使用,并以此为条...

4597
来自专栏北京马哥教育

HTTPS连接的前几毫秒发生了什么

提示:英文原文写于2009年,当时的Firefox和最新版的Firefox,界面也有很大改动。以下是正文。 花了数小时阅读了如潮的好评,Bob最终迫不及待为他购...

3577
来自专栏FreeBuf

那些年绕过的反爬手段

笔者第一份工作就是以java工程师的名义写爬虫,不得不说第一份工作很重要啊,现在除了爬虫不会干别的,到现在已经干了近5年了,期间经历了不少与反爬策略的斗争。最近...

1434
来自专栏BaronTalk

RxJava系列七(最佳实践)

前言 有点标题党了,其实谈不上什么最佳实践。前段时间公司实行996,所以也没什么时间和精力来更新博客(好吧~我承认是我懒~)。因此这篇文章只是简单的通过两个例...

35613

扫码关注云+社区