前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何在ubuntu使用hanlp

如何在ubuntu使用hanlp

作者头像
用户3492023
修改2018-11-26 10:45:52
7200
修改2018-11-26 10:45:52
举报
文章被收录于专栏:hanlp学习笔记hanlp学习笔记

前言

  以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客:

http://blog.csdn.net/daniel_ustc/article/details/48195287.

  随着项目的需求,我需要使用斯坦福大学的自然语言处理包standford作依存关系树的构建,然而standford很调皮地不让我做中文分词处理(老报错).无奈之下,我只能使用第三方的分词工具.由于standford的源码是java,我寻找了一个与之对应的分词工具,即hanlp.

HanLP的安装使用

  HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客:

http://m.blog.csdn.net/article/details?id=50938796

  不过该博客主要介绍的是windows如何使用hanlp,而ubuntu是linux的,所以会有所区别.下面我主要介绍的是在unbuntu的安装使用.

安装eclipse

在终端输入 sudo get-apt install eclipse-platform实现一键安装,然后在应用程序找到eclipse

下载hanlp

  访问hanlp的官方网址:http://hanlp.linrunsoft.com/services.html

分别下载hanlp.jar(程序包), data.zip(词典库),hanlp.properties(配置文件),而后面是说明文档,可以不下载

  在下载的data.zip的时候,下载链接有点隐晦,点击蓝色的data-for-1.2.11.zip,就会出现百度云链接啦

导入jar包

导入hanlp到eclipse之中,具体的流程可以参照网址:

http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html

导入配置文件

将hanlp.propertie复制至项目的bin目录中,修改词典的路径

将root的路径修改至data保存的路径(记得data要解压)

编程代码示范

import java.util.List;

import com.hankcs.hanlp.HanLP;

import com.hankcs.hanlp.seg.Segment;

import com.hankcs.hanlp.seg.common.Term;

public class DemoHanLP {

public static void main(String[] agrs){

String sentence = "大家好, 我的名字叫作Quincy.";

Segment segment = HanLP.newSegment();

List<Term> termList = segment.seg(sentence);

for(Term term : termList){

System.out.print(term+ " ");

}

}

}

运行结果:

文章来源于Quincy1994的博客

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档