前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自然语言处理之:搭建基于HanLP的开发环境

自然语言处理之:搭建基于HanLP的开发环境

原创
作者头像
IT小白龙
修改2018-11-12 10:47:04
6960
修改2018-11-12 10:47:04
举报
文章被收录于专栏:hadoop学习笔记hadoop学习笔记

环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP

各个版本的下载:https://github.com/hankcs/HanLP/releases

完毕后有一个报错:

字符类型对应表加载失败:

D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/CharType.dat.yes

直接在 D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/ 目录下新建一个txt文档将名称改为 CharType.dat.yes 即可。

相对比较简单。

尝试HanLP主要处于各个开源自然语言处理工具包之间的差异,寻找一个适合学习的开源工具包。

HanLP调用方法

HanLP几乎所有的功能都可以通过工具类HanLP快捷调用,当你想不起来调用方法时,只需键入HanLP.,IDE应当会给出提示,并展示HanLP完善的文档。所有Demo都位于com.hankcs.demo下,比文档覆盖了更多细节,更新更及时,强烈建议运行一遍。

HanLP的适用过程中注意的问题:

1、因为HanLP版本更新比较频繁,所以,jar源代码版本需要对应适用,否则源码和jar中接口调用对应不上。

在进行CRF分词过程中报错:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

    at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)

    at java.nio.ByteBuffer.allocate(ByteBuffer.java:335)

    at com.hankcs.hanlp.corpus.io.IOUtil.readBytesFromFileInputStream(IOUtil.java:251)

    at com.hankcs.hanlp.corpus.io.IOUtil.readBytes(IOUtil.java:178)

    at com.hankcs.hanlp.corpus.io.ByteArray.createByteArray(ByteArray.java:47)

    at com.hankcs.hanlp.model.crf.CRFModel.loadTxt(CRFModel.java:89)

    at com.hankcs.hanlp.seg.CRF.CRFSegment.<init>(CRFSegment.java:58)

    at com.hankcs.hanlp.seg.CRF.CRFSegment.<init>(CRFSegment.java:73)

    at test.Main.main(Main.java:56)

是因为CRF比较耗内存,所以出现内存不足,所以需要修改一下VM的最大内存。

选中工程,然后:

即可解决。

在源码包文件在eclipse中打开出现乱码,解决方法:

(必须)首先用txt打开,然后在第一行添加:encoding="utf-8"即可。

转载自CrazyNong 的博客

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档