专栏首页hadoop学习笔记java分词工具hanlp介绍
原创

java分词工具hanlp介绍

前几天(6月28日),在第23届中国国际软件博览会上,hanlp这款自然语言处理工具荣获了“2019年第二十三届中国国际软件博览会优秀产品”。

HanLP是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词法分析、句法分析、文本分析和情感分析等功能,是GitHub最受欢迎、用户量最大(超过13000个star)、社区活跃度最高的自然语言处理技术。

HanLP完全开源,包括词典。不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础件都是开源的。官方模型训练自2014人民日报语料库,您也可以使用内置的工具训练自己的模型。

通过工具类HanLP您可以一句话调用所有功能,文档详细,开箱即用。底层算法经过精心优化,极速分词模式下可达2,000万字/秒,内存仅需120MB。在IO方面,词典加载速度极快,只需500 ms即可快速启动。HanLP经过多次重构,目前已经更新到了1.7版本,新增并完善了中文分词、命名实体识别、信息抽取、文本分类、文本聚类、画法分析等功能,使用效率和适用性得到了大幅提升。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • hanlp提取文本关键词的使用方法记录

    本文是csu_zipple 分享的关于使用hanlp汉语言处理包提取关键词的过程一个简单的记录分享。想要使用hanlp提取文本关键词的新手朋友们可以参考学习一下...

    IT小白龙
  • Spring Boot中对自然语言处理工具包hanlp的调用详解

    HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构...

    IT小白龙
  • pyhanlp 繁简转换之拼音转换与字符正则化

    HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做...

    IT小白龙
  • 手动编译Parboil

    这里是使用Parboil自带的脚本编译和使用的教程:https://blog.csdn.net/FishSeeker/article/details/79479...

    用户1148523
  • 20190707

    (注:该文计划发布到DDD China知乎,看看译文哪里不太通顺?该书电子版可以在这里免费购买,只要把价格滚轮拨到0即可。)

    吾真本
  • 无人机导航靠视觉识别 成本比GPS低?

    无人机在飞行时一般需要依靠GPS系统来进行导航,不过有些情况GPS信号并不是时刻可用,而且由于GPS信号校准问题都会造成导航不准确。来自墨西哥墨西哥国家天体物理...

    机器人网
  • 数据分析专家谢士晨做客数据猿,听听这位日本名古屋大学博士都说了些啥?

    8月1日下午,百融金服数据专家谢士晨做客数据猿,针对金融科技相关问题进行了主题分享。 记者 | 白昆 官网 | www.datayuan.cn 微信公众号ID ...

    数据猿
  • 物联网平台的标配—MQTT

    最近的 BAT 动向,都把 MQTT 作为物联网前置接入套件单列出来作为标准云服务提供。阿里云物联网套件,百度开放云物联网服务 IOT,腾讯 QQ 物联平台,中...

    CSDN技术头条
  • SQL Server 2012启动时提示:无效的许可证数据,需要重新安装

      因为手咸,觉得电脑没有VS 2010版本的软件,就把Microsoft Visual C++ 2010某个组件给卸载了。

    _一级菜鸟
  • 人类太多余?且慢,先听AI科学家详解AlphaGo Zero的伟大与局限

    夏乙 李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI “人类太多余了。” 面对无师自通碾压一切前辈的AlphaGo Zero,柯洁说出了这样一句话...

    量子位

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动