大快HanLP自然语言处理技术介绍

大快HanLP自然语言处理技术介绍

这段时间一直在接触学习hadoop方面的知识,所以说对自然语言处理技术也是做了一些了解。网络上关于自然语言处理技术的分享文章很多,今天就给大家分享一下HanLP方面的内容。

自然语言处理技术其实是所有与自然语言的计算机处理相关联的技术的统称,自然语言处理技术应用的目的是为了能够让计算机理解和接收我们用自然语言输入的指令,实现从将我们人类的语言翻译成计算机能够理解的并且不会产生歧义的一种语言。接合目前的大数据以及人工智能,自然语言处理技术的快速发展能够很好的助力人工智能的发展。

(大快DKhadoop技术架构图)

这里要分享的HanLP是我在学习使用大快DKhadoop大数据一体化平台时使用到的自然语言处理技术,使用这个组建可以很高效的进行自然语言的处理工作,比如进行文章摘要,语义判别以及提高内容检索的精确度和有效性等。

本想找个通俗的案例来介绍一下HanLP,一时间也没想到什么好的案例,索性就从HanLp数据结构HE 分词简单介绍下吧。

首先我们来看了解下HanLP的数据结构:

二分tire树:Tire树是一种前缀压缩结构,可以压缩存大量字符串,并提供速度高于Map的get操作。HanLP中的trie树采用有序数组储存子节点,通过二分搜索算法检索,可以提供比TreeMap更快的查询速度。

不同于父节点储存子节点引用的普通trie树,双数组trie树将节点的从属关系转化为字符内码的加法与校验操作

对于一个接收字符c从状态s移动到t的转移,需满足条件是:

base[s] + c = t

check[t] = s比如:base[一号] + 店 = 一号店

check[一号店] = 一号

相较于trie树的前缀压缩(success表),AC自动机还实现了后缀压缩(output表)

在匹配失败时,AC自动机会跳转到最可能成功的状态(fail指针)

关于HanLP分词

1、词典分词

基于双数组trie树或ACDAT的词典最长分词(即从词典中找出所有可能的词,顺序选择最长的词语)

输出:[HanLP/名词, 是不是/null, 特别/副词, 方便/形容词, ?/null]

2、NGram分词

统计语料库中的BiGram,根据转移概率,选出最可能的句子,达到排除歧义的目的

3、HMM2

这是一种由字构词的生成式模型,由二阶隐马模型提供序列标注

被称为TnT Tagger,特点是利用低阶事件平滑高阶事件,弥补高阶模型的数据稀疏问题

4、CRF分词

这是一种由字构词的生成式模型,由CRF提供序列标注

相较于HMM,CRF的优点是能够利用更多特征、对OOV分词效果好,缺点是占内存大、解码慢。



原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

Google Brain:NMT训练成本太高?用大规模神经机器翻译架构分析给出解决方案

编者按:十年前,Google Translate发布。当时,这项服务背后的核心算法还是基于短语的机器翻译。 而十年后的今天,更先进的神经网络机器翻译( Neur...

34950
来自专栏绿巨人专栏

读书笔记: 博弈论导论 - 02 - 引入不确定性和时间

13130
来自专栏华章科技

这些数学问题曾经坑死了世人

几千年以来,人类在研究数学的过程中,提出并解决了很多难题。有些数学难题不仅玩坏了很多研究者,其解决的过程或结果也让人觉得十分坑爹。哆嗒数学网小编就在这里列举To...

9210
来自专栏量化投资与机器学习

【解读】遗传基因程序二元机器代码自动归纳合成算法

可能这个算法出来已经一段时间了,今天在一个策略网站上偶然发现,觉得很有意思,因此,查阅了一些资料进行学习。 遗传基因程序二元机器代码自动归纳合成算法(Autom...

21060
来自专栏牛客网

算法工程师:学习经验/心得+求职经验算法学习与求职经验学习心得和经验 求职心得和经验

算法学习与求职经验 今天已经是11月初了,找工作的阶段已经进入尾声。回想这半年的时间,充满苦涩与艰辛,有幸拿到了几个offer,腾讯和滴滴的SP,还有百度和华为...

53660
来自专栏牛客网

小米科技面试全过程

一面(60min左右) 我是请学长内推的小米机器学习算法岗,一面面试官还是根据我的简历和我聊了会本科到研究生的个人经历,包括保研,成绩,比赛,实践经验都很详细的...

54460
来自专栏AI科技评论

ACL2016最佳论文:通过交互学习语言游戏

摘要 我们介绍了一种与构建适应性的自然语言接口有关的新型语言学习设置。它受到维特根斯坦语言游戏(Wittgenstein’s language games)的启...

28340
来自专栏用户2442861的专栏

网易面试总结(机器学习一些面试)

http://blog.csdn.net/jiejinquanil/article/details/52530922

48810
来自专栏程序你好

开源项目ELMo:机器学习在自动翻译中的应用

18140
来自专栏AI科技评论

开发 | NMT训练成本太高?Google Brain用大规模神经机器翻译架构分析给出解决方案

AI科技评论编者按:十年前,Google Translate发布。当时,这项服务背后的核心算法还是基于短语的机器翻译。 而十年后的今天,更先进的神经网络机器翻译...

365100

扫码关注云+社区

领取腾讯云代金券