HanLP分词器的使用方法

前言:分析关键词

如何在一段文本之中提取出相应的关键词呢?

之前我有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。

下载:.jar .properties data等文件

这里提供官网下载地址 HanLP下载,1.3.3数据包下载

在intellij中配置环境,并运行第一个demo

在项目中配置jar包,添加依赖。

file->Project Structure->Modules->Dependencies->+Jars

将properties文件转移到src根目录下,修改root为自己的数据集路径

运行第一个demo

public class TestHanLP {

public static void main(String[] args) {

System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));

}

}

可能的错误

字符类型对应表加载失败:D:/BaiduYunDownload/data-for-1.3.3/data/dictionary/other/CharType.dat.yes

解决办法:查看错误提示页面下是否有该文件,如果没有则去网上下载一个。像我这里,由于只是使用其一部分功能,为了方便就不再下载了,这里我直接修改了一个文件的文件名—–成功运行!。

成功运行

文章来源于csu_zipple的博客

原文链接:http://blog.51cto.com/13993767/2296102

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏烂笔头

SSDB安装配置记录

目录[-] SSDB的性能很突出,与Redis基本相当了,Redis是内存型,容量问题是弱项,并且内存成本太高,SSDB针对这个弱点,使用硬盘存储,使用G...

4418
来自专栏Java编程技术

MySQL 中基于 XA 实现的分布式事务

Xa主要规定了RM与TM之间的交互,下面来看下XA规范中定义的RM 和 TM交互的接口:

1103
来自专栏Danny的专栏

【SSH快速进阶】——Hibernate自动建表

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/huyuyang6688/article/...

1404
来自专栏乐沙弥的世界

Percona XtraDB Cluster GCache和Record-Set缓存

在Percona XtraDB集群中,有一个GCache和Record-Set缓存(也可称为事务写集缓存)的概念。如果您正在运行长事务,那么使用这两个缓存通常会...

1190
来自专栏移动开发面面观

POSIX文件操作(二)

2215
来自专栏美团技术团队

Linux与JVM的内存关系分析

引言 在一些物理内存为8g的服务器上,主要运行一个Java服务,系统内存分配如下:Java服务的JVM堆大小设置为6g,一个监控进程占用大约600m,Linux...

7997
来自专栏MYSQL轻松学

Mysql重要参数说明

1)mysql double write buffer参数详解 什么是double write buffe?参数innodb_doublewrite=1打开 u...

3277
来自专栏乐百川的学习频道

django 快速入门

Django是Python语言编写的一个全栈式Web框架,可以帮助我们快速编写一个具有数据库功能、增删查改、后台管理等功能的网站。假如你只需要一些很简单的功能,...

2676
来自专栏云计算教程系列

如何在Ubuntu 16.04上的三节点集群上部署CockroachDB

CockroachDB是一个开源的分布式SQL数据库,提供一致性、可伸缩性和生存性。

1612
来自专栏GopherCoder

Django:web框架的学习(2)

1354

扫码关注云+社区

领取腾讯云代金券