汉语言处理包Hanlp的使用

本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z

python可以用easy_install安装一些软件

1.JPype使用介绍

参考:http://michael-paul.iteye.com/blog/1055786

Python 作为一种灵活的软件开发语言在当今被广泛使用。在软件开发过程中,有时需要在 Python 项目中利用既有的 Java 代码,已达到节省时间和开发成本的目的。因此,找到一个 Python 代码调用 Java 代码的桥梁是非常有意义的。 JPype 就是这样的一个工具,利用它可以使 Python 程序方便的调用 Java 代码,从而扩充 Python 语言的能力,弥补 Python 语言的不足。本文介绍了如何利用 JPype 整合 Python 程序和 Java 程序的一些基本方法。

下面是一个简单的 python 程序,通过 JPype 调用 Java 的打印函数,打印出字符串。

清单 1. hello world

import jpype

jvmPath = jpype.getDefaultJVMPath()

jpype.startJVM(jvmPath)

jpype.java.lang.System.out.println( “ hello world! ” )

jpype.shutdownJVM()

运行该例程的时候,getDefaultJVMPath()找不到默认的jvm路径,检查发现在命令行下输入java和javac都是没问题,而且已经配置好环境变量。找到jpype官方文档给的例程(http://jpype.sourceforge.net/doc/user-guide/userguide.html),使用说明(http://blog.csdn.net/niuyisheng/article/details/9002926)发现历程中jdk中jre文件有client文件夹,而现在版本只有server文件夹,然后找一篇文章介绍jvm中client模式和server模式的区别(http://ryxxlong.iteye.com/blog/1696537),发现他们用的都是jdk1.6,而现在的版本是jdk1.8,猜想新版本已经没有该功能了,把jdk换成1.6版本还是发现没有client文件夹,放弃在python中调用java包Hanlp,直接在java程序中使用hanlp。

11大Java开源中文分词器的使用方法和分词效果对比:

http://my.oschina.net/apdplat/blog/412921?fromerr=jF95Yz4

2.关于HanLP

HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持:

中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),

命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),

关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。

Hanlp的安装和入门说明:http://hanlp.linrunsoft.com/doc/_build/html/getting_started.html#hanlp

HanLP 中的数据分为 词典 和 模型 ,其中 词典 是词法分析必需的, 模型 是句法分析必需的

文章来源于zhangqiang1104的博客

原文链接:https://blog.csdn.net/lanlantian123456/article/details/83344241

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏陈树义

测试妹子的呐喊:为什么总是收不到推送?

小树最近在开发公司 App 的一个新的功能,需要在用户上线的时候,给关注了她的用户发送一条推送消息。小树很快就完成了开发, 但测试人员却反馈说无法正常接收到推...

3736
来自专栏木子昭的博客

往"某度文库"上传资源之前,请先做好这些...想到一句好玩的话:知道是你干的,只是懒得抓你!如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励!

先讲个相关的故事:匿名黑客的"复仇行动" 2010年12月10日,黑客组织匿名者发布了一条消息,解释了他们发起最近一次代号为”复仇行动”的攻击的大致动机(Pr...

37613
来自专栏FreeBuf

【极客大讲堂】如何用树莓派控制交通红绿灯?

涉及硬件:树莓派以及相关套件、LED红绿灯 涉及知识:电路实验板、CanaKit 当准备好以上,我们就可以开始啦。使用树莓派进行LED原型控制。 首先要明白的是...

2878
来自专栏塔奇克马敲代码

Windows平台下源码分析工具

2313
来自专栏Albert陈凯

理解zookeeper选举机制

zookeeper集群 配置多个实例共同构成一个集群对外提供服务以达到水平扩展的目的,每个服务器上的数据是相同的,每一个服务器均可以对外提供读和写的服务,这点...

6395
来自专栏自然语言处理

3000篇搜狐新闻语料数据预处理器的python实现

简介:本文训练的新闻语料是从搜狐官网下载的10类3000篇新闻真实语料,具体如下图,其中每类下面是300篇新闻文章。其中:C000007 汽车,C000008 ...

1903
来自专栏杨建荣的学习笔记

system表空间不足的问题分析(r6笔记第66天)

很多事情见多了也就有了麻木的感觉,报警短信就是如此,每天总能收到不少的报警短信,可能很多时候就扫一眼,如果没有严重的问题自己是不会情愿打开电脑处理的。 对于此,...

2744
来自专栏牛客网

蚂蚁金服面经(3+4)

【每日一语】我和这个世界不熟。这并非是我撕裂的原因。我依旧有很多完整,至少我要成全我自己。──北岛《我和这个世界不熟》

2162
来自专栏数据和云

DBA生存警示:系统级误删除案例及防范建议

编辑手记:对于资深的老DBA们,他们在漫长的职业生涯中养成了很多稀奇古怪的守则,以在复杂多变的环境中“幸存”,这源于无数血泪的教训,我曾经在《数据安全警示录》...

2874
来自专栏Albert陈凯

2018-05-17 架构师技能图谱,搞懂这些找工作无敌数据结构常用算法并发操作系统设计模式运维 & 统计 & 技术支持中间件网络数据库搜索引擎性能大数据安全常用开源框架分布式设计设计思想 & 开发模

9764

扫码关注云+社区

领取腾讯云代金券