专栏首页hadoop学习笔记HanLP 自然语言处理 for nodejs
原创

HanLP 自然语言处理 for nodejs

支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)

环境要求

java 1.8

nodejs >= 6

docker

·build image

cd node-hanlp

./scripts/build-docker-image.sh

Or pull image

docker pull samurais/hanlp-api:1.0.0

·  start container

docker run -it --rm -p 3002:3000 samurais/hanlp-api:1.0.0

·access service

POST /tokenizer HTTP/1.1

Host: localhost:3002

Content-Type: application/json

{

"type": "nlp",

"content": "刘德华和张学友创作了很多流行歌曲"

}

RESPONSE

{

  "status": "success",

  "data": [

    {

      "word": "刘德华",

      "nature": "nr",

      "offset": 0

    },

    {

      "word": "和",

      "nature": "cc",

      "offset": 0

    },

    {

      "word": "张学友",

      "nature": "nr",

      "offset": 0

    },

    {

      "word": "创作",

      "nature": "v",

      "offset": 0

    },

    {

      "word": "了",

      "nature": "ule",

      "offset": 0

    },

    {

      "word": "很多",

      "nature": "m",

      "offset": 0

    },

    {

      "word": "流行歌曲",

      "nature": "n",

      "offset": 0

    }

  ]

}

·Other APIs

l tokenizer 分词

l keyword 关键词

l summary 摘要

l phrase 短语提取

l query 关键词、摘要

l conversion 简、繁、拼音转换

源码

node module

·Install

npm install node-hanlp

·Config

² 配置文件路径 node_modules/node-hanlp/lib/src-java/hanLP.proerties

² 请修改root为您的目录路径

² 词典文件目录 ./data

² 请下载词典 pan.baidu.com/s/1pKUVNYF 放入 ./data (约800MB文件) 目录下

·Usage

const Hanlp = require("node-hanlp");

//分词库初始化及配置

const HanLP = new Hanlp({

CustomDict : true, //使用自定义词典

NameRecognize : true, //中国人名识别

TranslatedNameRecognize : true , //音译人名识别

JapaneseNameRecognize : true, //日本人名识别

PlaceRecognize : true , //地名识别

OrgRecognize : true //机构名识别

});

let words = HanLP.Tokenizer("商品和服务");

标准分词 HanLP.Tokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.Tokenizer("商品和服务");

[

  { word: '商品', nature: 'n', offset: 0 },

  { word: '和', nature: 'cc', offset: 0 },

  { word: '服务', nature: 'vn', offset: 0 }

]

NLP分词 HanLP.NLPTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.NLPTokenizer("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");

[

  { word: '中国科学院计算技术研究所', nature: 'nt', offset: 0 },

  { word: '的', nature: 'ude1', offset: 0 },

  { word: '宗成庆', nature: 'nr', offset: 0 },

  { word: '教授', nature: 'nnt', offset: 0 },

  ...

]

索引分词 HanLP.IndexTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.IndexTokenizer("主副食品");

[

  { word: '主副食品', nature: 'n', offset: 0 },

  { word: '主副食', nature: 'j', offset: 0 },

  { word: '副食', nature: 'n', offset: 1 },

  { word: '副食品', nature: 'n', offset: 1 },

  { word: '食品', nature: 'n', offset: 2 }

]

CRF分词 HanLP.CRFTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.CRFTokenizer("你好,欢迎使用HanLP汉语处理包!");

[

  { word: '你好', nature: 'vl', offset: 0 },

  { word: ',', nature: 'w', offset: 0 },

  { word: '欢迎', nature: 'v', offset: 0 },

  { word: '使用', nature: 'v', offset: 0 },

  { word: 'HanLP', nature: 'nz', offset: 0 },

  { word: '汉语', nature: 'gi', offset: 0 },

  ...

]

去除停用词分词 HanLP.NoStopWord( text )

@param String text [文本]

@ruten Object

let words = HanLP.NoStopWord("你好,欢迎使用HanLP汉语处理包!");

[

  { word: '你好', nature: 'vl', offset: 0 },

  { word: '欢迎', nature: 'v', offset: 0 },

  { word: '使用', nature: 'v', offset: 0 },

  { word: 'HanLP', nature: 'nz', offset: 0 },

  { word: '汉语', nature: 'gi', offset: 0 },

  ...

]

最短路分词 HanLP.ShortSegment( text )

@param String text [文本]

@ruten Object

let words = HanLP.ShortSegment("今天,liuzhijun案的关键人物,山西女商人dingshumiao在市二中院出庭受审。");

[

  { word: '今天', nature: 't', offset: 0 },

  { word: ',', nature: 'w', offset: 0 },

  { word: 'liushijun', nature: 'nr', offset: 0 },

  { word: '案', nature: 'ng', offset: 0 },

  { word: '的', nature: 'ude1', offset: 0 },

  { word: '关键', nature: 'n', offset: 0 },

  ...

]

N-最短分词 HanLP.NShortSegment( text )

@param String text [文本]

@ruten Object

let words = HanLP.NShortSegment("刘喜杰石国祥会见吴亚琴先进事迹报告团成员");

[

  { word: '刘喜杰', nature: 'nr', offset: 0 },

  { word: '石国祥', nature: 'nr', offset: 0 },

  { word: '会见', nature: 'v', offset: 0 },

  { word: '吴亚琴', nature: 'nr', offset: 0 },

  { word: '先进', nature: 'a', offset: 0 },

  ...

]

极速词典分词 HanLP.SpeedTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.SpeedTokenizer("江西鄱阳湖干枯,中国最大淡水湖变成大草原");

[

  { word: '江西', offset: 0 },

  { word: '鄱阳湖', offset: 2 },

  { word: '干枯', offset: 5 },

  { word: ',', offset: 7 },

  { word: '中国', offset: 8 },

]

关键词提取 HanLP.Keyword( text , nTop )

@param String text [文本]

@param Number nTop [关键词个数,默认5个]

@ruten Object

let words = HanLP.Keyword("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 3);

[ '中国', '最大', '淡水湖' ]

短语提取 HanLP.Phrase( text , nTop )

@param String text [文本]

@param Number nTop [短语个数,默认3个]

@ruten Object

let words = HanLP.Phrase("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 2 );

[ '中国最大', '变成草原' ]

提取文章摘要 HanLP.Summary( text , nTop )

@param String text [文本]

@param Number nTop [文章摘要条数,默认3条]

@ruten Object

let text = "据美国福克斯新闻报道,俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号,正在驶向美国军舰发射导弹攻击叙利亚的区域。该护卫舰是俄罗斯最先进的护卫舰,2016年才刚服役,除防空、反舰导弹外,也可以发射巡航导弹。格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港。"

let words = HanLP.Summary( text , 3);

[

  '俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号',

  '格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港',

  '正在驶向美国军舰发射导弹攻击叙利亚的区域'

]

文本推荐 HanLP.Suggester( list, words, Ntop )

@param Array list 句子列表

@param Array words 词语

@param Number nTop 相似句子推荐个数,默认1个

@ruten Object

句子级别,从一系列句子中挑出与输入句子最相似的那一个

语义距离 HanLP.WordDistance( words )

@param Array words 词

@ruten Object

简繁转换 HanLP.ConversionFont( text , type )

@param String text 文本

@ruten String type 类型 jt简体|ft繁体,默认jt

@ruten String

拼音转换 HanLP.Pinyin( text , type )

@param String text 文本

@ruten String type 类型 类型 num数字音调|tone符号音调|outtone无音调|shengmu声母|yunmu韵母|head输入法头,默认outtone

@ruten Object

�`��

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

推荐阅读

  • 日访问百万级微信小程序优化技巧总结

    之前负责的锡慧在线小程序是一款公益性质在线教育类小程序,因疫情影响导致流量暴增,日访问过百万

    薛定喵君
    小程序微信缓存RedisCanvas
  • Spiral: 一个性能卓越的PHP/Golang混合开发框架

    春节期间,了解到一个“全新”的 WEB 开发框架:Spiral, 最开始引起我的兴趣是从同事那里听说了 RoadRunner. 然后去了解 RoadRunner 的时候看到了 Spiral. 之所以把“全新”用双引号引起来,是因为这个框架其实从 2013 年起就在它的开发团队以及一些企业客户中应用了,经历了各种实际应用场景的考验,Spiral 的功能及其丰富,性能与当前主流的 PHP 框架相比也相当出众。但这个框架源自俄国,在国内不算知名,他们团队开始重视和梳理开源,也应该是才开始的事情。

    小李刀刀
    PHPGoSymfony
  • kubernetes系列教程(二十)prometheus提供完备监控系统

    上一个章节中kubernetes系列教程(十九)使用metric-server让HPA弹性伸缩愉快运行介绍了在kubernetes中的监控架构,通过安装和使用metric-server提供kubernetes中的核心监控指标:提供node节点和pod容器CPU和内存的监控能力,核心监控指标提供的监控维度和指标相对有限,需要更好的扩展监控能力,需要使用自定义监控来实现,本文介绍prometheus提供更更加丰富的自定义监控能力。

    HappyLau谈云计算
    Kubernetes容器微服务云监控
  • 如何将设计思维应用到精益初创公司的软件开发

    我们所说的设计思维,是指由 IDEO 公司的 Tim Brown 提出,并且正在改变全世界组织的设计思维,简称 DT。(译者注:IDDO,当代最具影响力的设计公司之一)

    Aceyclee
    Serverless无服务器云函数
  • InnoDB 事务加锁分析

    一般大家对数据库事务的了解可能停留在事务的ACID特性以及事务4种不同的隔离级别层面上,而对于事务 4 种不同隔离级别如何实现了解相对较少。

    2020labs小助手
    MySQLSQL数据库MVCMVCC
  • FutureTask 核心源码解析

    研究源码,一般我们都从整体以及实例先入手,再研究细节,不至于一开始就“深陷其中而"当局者迷".

    JavaEdge
    HTTPJava
  • 200行代码落地人脸识别开锁应用

    2019年国庆,帮朋友实现了一个人脸识别进行开锁的功能,用在他的真人实景游戏业务中。几个月来运行稳定,体验良好,借着这个春节宅家的时间,整理一下这个应用的实现过程。

    高树磊
    人脸识别图像处理
  • 滑动验证码攻防对抗

        在业务安全领域,滑动验证码已经是国内继,传统字符型验证码之后的标配。众所周知,打码平台和机器学习这两种绕过验证码的方式,已经是攻击者很主流的思路,不再阐述。冷渗透介绍的是一个冷门的绕过思路和防御方案。这些积累,均来自于实战之中,希望有用。

    周俊辉
    HTTP网络安全安全网站
  • 程序员进阶必读,万字总结Mysql优化精华篇

    price decimal(8,2)有2位小数的定点数,定点数支持很大的数(甚至是超过int,bigint存储范围的数)

    程序员内点事
    全文检索缓存SQL数据库Python
  • 运维转型 | 运维人不再只是“救火英雄”

    各行各业都开启了数字化转型的进程,运维团队在这种时代的浪潮中又该何去何从?我在帮助一些企业落地了运维技术平台之后,开始反思这个问题,并将所思所想整理成本篇文章。

    嘉为科技
    企业运维自动化云计算

扫码关注云+社区

领取腾讯云代金券