汉语言处理包Hanlp的使用

本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z

##########python可以用easy_install安装一些软件############

1.JPype使用介绍

参考:http://michael-paul.iteye.com/blog/1055786

Python 作为一种灵活的软件开发语言在当今被广泛使用。在软件开发过程中,有时需要在 Python 项目中利用既有的 Java 代码,已达到节省时间和开发成本的目的。因此,找到一个 Python 代码调用 Java 代码的桥梁是非常有意义的。 JPype 就是这样的一个工具,利用它可以使 Python 程序方便的调用 Java 代码,从而扩充 Python 语言的能力,弥补 Python 语言的不足。本文介绍了如何利用 JPype 整合 Python 程序和 Java 程序的一些基本方法。

下面是一个简单的 python 程序,通过 JPype 调用 Java 的打印函数,打印出字符串。

清单 1. hello world

import jpype

jvmPath = jpype.getDefaultJVMPath()

jpype.startJVM(jvmPath)

jpype.java.lang.System.out.println( “ hello world! ” )

jpype.shutdownJVM()

运行该例程的时候,getDefaultJVMPath()找不到默认的jvm路径,检查发现在命令行下输入java和javac都是没问题,而且已经配置好环境变量。找到jpype官方文档给的例程(http://jpype.sourceforge.net/doc/user-guide/userguide.html),使用说明(http://blog.csdn.net/niuyisheng/article/details/9002926)发现历程中jdk中jre文件有client文件夹,而现在版本只有server文件夹,然后找一篇文章介绍jvm中client模式和server模式的区别(http://ryxxlong.iteye.com/blog/1696537),发现他们用的都是jdk1.6,而现在的版本是jdk1.8,猜想新版本已经没有该功能了,把jdk换成1.6版本还是发现没有client文件夹,放弃在python中调用java包Hanlp,直接在java程序中使用hanlp。

11大Java开源中文分词器的使用方法和分词效果对比:

http://my.oschina.net/apdplat/blog/412921?fromerr=jF95Yz4

2.关于HanLP

HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持:

中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),

命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),

关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。

Hanlp的安装和入门说明:http://hanlp.linrunsoft.com/doc/_build/html/getting_started.html#hanlp

HanLP 中的数据分为 词典 和 模型 ,其中 词典 是词法分析必需的, 模型 是句法分析必需的

官网demo:https://github.com/hankcs/HanLP/tree/master/src/test/java/com/hankcs/demo

文章来源于zhangqiang1104的博客

原文链接:https://blog.csdn.net/lanlantian123456/article/details/83344241

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能大石头

MF干活——C#点灯神话

    如同学习每一门编程语言的Hello World!一样,点灯自然成了单片机入门的HelloWorld。因为单片机上的HelloWorld实在是太难了!  ...

21610
来自专栏FreeBuf

【极客大讲堂】如何用树莓派控制交通红绿灯?

涉及硬件:树莓派以及相关套件、LED红绿灯 涉及知识:电路实验板、CanaKit 当准备好以上,我们就可以开始啦。使用树莓派进行LED原型控制。 首先要明白的是...

2938
来自专栏java一日一条

Python爬虫爬取美剧网站

一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间。之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前...

1752
来自专栏androidBlog

360面试总结(Android)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/gdutxiaoxu/article/details/...

831
来自专栏自然语言处理

3000篇搜狐新闻语料数据预处理器的python实现

简介:本文训练的新闻语料是从搜狐官网下载的10类3000篇新闻真实语料,具体如下图,其中每类下面是300篇新闻文章。其中:C000007 汽车,C000008 ...

1943
来自专栏杨建荣的学习笔记

system表空间不足的问题分析(r6笔记第66天)

很多事情见多了也就有了麻木的感觉,报警短信就是如此,每天总能收到不少的报警短信,可能很多时候就扫一眼,如果没有严重的问题自己是不会情愿打开电脑处理的。 对于此,...

2744
来自专栏数据小魔方

数据地图系列6|Stata数据地图(下)

今天要跟大家分享的是数据地图系列6——Stata数据地图(下)! 接着前一篇的节凑,这一篇会给大家介绍比较全面的Stata热力地图代码实现。 版本仍然是基于S...

5944
来自专栏陈树义

测试妹子的呐喊:为什么总是收不到推送?

小树最近在开发公司 App 的一个新的功能,需要在用户上线的时候,给关注了她的用户发送一条推送消息。小树很快就完成了开发, 但测试人员却反馈说无法正常接收到推...

3756
来自专栏腾讯大数据的专栏

Storm上的实时统计利器-easycount

背景 Storm是TRC(腾讯实时计算)平台的核心组件。与Hadoop不同,storm之上没有像hive,pig之类的解放应用开发人员效率的工具。开发原生的st...

3579
来自专栏猛牛哥的博客

集结号抢座挂的制作分析过程(一):座位内存的分析

2576

扫码关注云+社区

领取腾讯云代金券