专栏首页hanlp学习笔记HanLP分词器的使用方法

HanLP分词器的使用方法

前言:分析关键词

如何在一段文本之中提取出相应的关键词呢?

之前我有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。

下载:.jar .properties data等文件

这里提供官网下载地址 HanLP下载,1.3.3数据包下载

在intellij中配置环境,并运行第一个demo

在项目中配置jar包,添加依赖。

file->Project Structure->Modules->Dependencies->+Jars

将properties文件转移到src根目录下,修改root为自己的数据集路径

运行第一个demo

public class TestHanLP {

public static void main(String[] args) {

System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));

}

}

可能的错误

字符类型对应表加载失败:D:/BaiduYunDownload/data-for-1.3.3/data/dictionary/other/CharType.dat.yes

解决办法:查看错误提示页面下是否有该文件,如果没有则去网上下载一个。像我这里,由于只是使用其一部分功能,为了方便就不再下载了,这里我直接修改了一个文件的文件名—–成功运行!。

成功运行

文章来源于csu_zipple的博客

原文链接:http://blog.51cto.com/13993767/2296102

我来说两句

0 条评论
登录 后参与评论

相关文章

  • hanlp安装和使用

    在https://github.com/hankcs/HanLP/releases中下载data然后覆盖HanLP-1.3.4.zip解压后的data

    用户3492023
  • 菜鸟如何使用Hanlp

    boss给了个做分词的任务,最开始想用的是结巴分词and正则表达式。后来发现结果并不好,需要一遍一遍筛选【第一个标准筛选出80%的数据,然后制定第二个标准,继续...

    用户3492023
  • 如何在ubuntu使用hanlp

      以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客:

    用户3492023
  • hanlp安装和使用

    在https://github.com/hankcs/HanLP/releases中下载data然后覆盖HanLP-1.3.4.zip解压后的data

    用户3492023
  • python 秘钥文件破解ssh密码

    用户5760343
  • python入门系列----环境搭建

    可在官网下载, 一般是龟速下载, 可通过淘宝镜像站下载: https://npm.taobao.org/mirrors, 推荐点此直接下载

    devecor
  • jenkins构建时支持git选择分支

    易兒善
  • Mysql5.5——xtrabackup主从同步

    192.168.102.128 linux-node1.example.com (主)

    江小白
  • 【玩转腾讯云】二.基于CVM服务器轻松部署PostgreSQL数据库

    ②选择自定义配置——计费模式为“按量付费”——地域选择“北京”——可用区选择“随机可用区”——网络选择“默认”即可

    一只特立独行的兔先生
  • IntelliJ IDEA 2020.1 Crack 插件永久激活

    进入目录C:\Windows\System32\drivers\etc,修改hosts文件,增加下面一行

    架构探险之道

扫码关注云+社区

领取腾讯云代金券