专栏首页hadoop学习笔记pyhanlp 两种依存句法分类器

pyhanlp 两种依存句法分类器

依存句法分析器

在HanLP中一共有两种句法分析器

·依存句法分析

(1)基于神经网络的高性能依存句法分析器

(2)MaxEnt依存句法分析

基于神经网络的高性能依存句法分析器

HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Accurate Dependency Parser using Neural Networks),这里还有一个发在了Github的实现程序,其实现语言为Python。除此之外,你还可以参考ljj123zz 的CSDN 一篇博客:blog.csdn.net/ljj123zz/article/details/78834838

HanLP作者的原文介绍已经写得比较清楚,唯一要注意的是原文章中介绍的依存句法分析器为早期版本,输出的依存关系为英文,现在应该变为中文,而且从测试结果看,训练语料应该已经更新了,但是更新为了那个语料现在还不会是很清楚。

(hanlp开源项目负责人hankcs)

基于最大熵的依存句法分析器

经过测试这个句法分析器为真的很坑,绝对不建议使用,测试代码见最后,作者原文介绍请点击击www.hankcs.com/nlp/parsing/to-achieve-the-maximum-entropy-of-the-dependency-parser.html

下面是使用的例子

基于神经网络的高性能依存句法分析器

from pyhanlp import *

# 依存句法分析

sentence = HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。")

print(sentence)

for word in sentence.iterator():  # 通过dir()可以查看sentence的方法

    print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))

print()

# 也可以直接拿到数组,任意顺序或逆序遍历

word_array = sentence.getWordArray()

for word in word_array:

    print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))

print()

# 还可以直接遍历子树,从某棵子树的某个节点一路遍历到虚根

CoNLLWord = JClass("com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord")

head = word_array[12]

while head.HEAD:

    head = head.HEAD

    if (head == CoNLLWord.ROOT):

        print(head.LEMMA)

    else:

        print("%s --(%s)--> " % (head.LEMMA, head.DEPREL))

1 徐先生 徐先生 nh nr _ 4 主谓关系 _ _

2 还 还 d d _ 4 状中结构 _ _

3 具体 具体 a ad _ 4 状中结构 _ _

4 帮助 帮助 v v _ 0 核心关系 _ _

5 他 他 r r _ 4 兼语 _ _

6 确定 确定 v v _ 4 动宾关系 _ _

7 了 了 u u _ 6 右附加关系 _ _

8 把 把 p p _ 15 状中结构 _ _

9 画 画 v v _ 8 介宾关系 _ _

10 雄鹰 雄鹰 n n _ 9 动宾关系 _ _

11 、 、 wp w _ 12 标点符号 _ _

12 松鼠 松鼠 n n _ 10 并列关系 _ _

13 和 和 c c _ 14 左附加关系 _ _

14 麻雀 麻雀 n n _ 10 并列关系 _ _

15 作为 作为 v v _ 6 动宾关系 _ _

16 主攻 主攻 v vn _ 17 定中关系 _ _

17 目标 目标 n n _ 15 动宾关系 _ _

18 。 。 wp w _ 4 标点符号 _ _

徐先生 --(主谓关系)--> 帮助

还 --(状中结构)--> 帮助

具体 --(状中结构)--> 帮助

帮助 --(核心关系)--> ##核心##

他 --(兼语)--> 帮助

确定 --(动宾关系)--> 帮助

了 --(右附加关系)--> 确定

把 --(状中结构)--> 作为

画 --(介宾关系)--> 把

雄鹰 --(动宾关系)--> 画

、 --(标点符号)--> 松鼠

松鼠 --(并列关系)--> 雄鹰

和 --(左附加关系)--> 麻雀

麻雀 --(并列关系)--> 雄鹰

作为 --(动宾关系)--> 确定

主攻 --(定中关系)--> 目标

目标 --(动宾关系)--> 作为

。 --(标点符号)--> 帮助

徐先生 --(主谓关系)--> 帮助

还 --(状中结构)--> 帮助

具体 --(状中结构)--> 帮助

帮助 --(核心关系)--> ##核心##

他 --(兼语)--> 帮助

确定 --(动宾关系)--> 帮助

了 --(右附加关系)--> 确定

把 --(状中结构)--> 作为

画 --(介宾关系)--> 把

雄鹰 --(动宾关系)--> 画

、 --(标点符号)--> 松鼠

松鼠 --(并列关系)--> 雄鹰

和 --(左附加关系)--> 麻雀

麻雀 --(并列关系)--> 雄鹰

作为 --(动宾关系)--> 确定

主攻 --(定中关系)--> 目标

目标 --(动宾关系)--> 作为

。 --(标点符号)--> 帮助

麻雀 --(并列关系)-->

雄鹰 --(动宾关系)-->

画 --(介宾关系)-->

把 --(状中结构)-->

作为 --(动宾关系)-->

确定 --(动宾关系)-->

帮助 --(核心关系)-->

##核心##

最大熵依存句法分析器

MaxEntDependencyParser = JClass("com.hankcs.hanlp.dependency.MaxEntDependencyParser")

print("hankcs每天都在写程序")

print(MaxEntDependencyParser.compute("hankcs每天都在写程序"))

print("吴彦祖每天都在写程序")

print(MaxEntDependencyParser.compute("吴彦祖每天都在写程序"))

hankcs每天都在写程序

1 hankcs hankcs x x _ 6 限定 _ _

2 每天 每天 r r _ 5 施事 _ _

3 都 都 d d _ 5 程度 _ _

4 在 在 d d _ 5 程度 _ _

5 写 写 v v _ 0 核心成分 _ _

6 程序 程序 n n _ 5 内容 _ _

吴彦祖每天都在写程序

1 吴彦祖 吴彦祖 n nr _ 5 施事 _ _

2 每天 每天 r r _ 5 施事 _ _

3 都 都 d d _ 5 程度 _ _

4 在 在 d d _ 5 程度 _ _

5 写 写 v v _ 0 核心成分 _ _

6 程序 程序 n n _ 5 内容 _ _

作者:FontTian

原文链接:https://www.cnblogs.com/fonttian/p/9819774.html

我来说两句

0 条评论
登录 后参与评论

相关文章

  • hanlp汉语自然语言处理入门基础知识介绍

    自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多...

    IT小白龙
  • 目前常用的自然语言处理开源项目/开发包大汇总

    中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP...

    IT小白龙
  • 中文自然语言处理工具hanlp隐马角色标注详解

    本文旨在介绍如何利用HanLP训练分词模型,包括语料格式、语料预处理、训练接口、输出格式等。 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另...

    IT小白龙
  • 点名了,最具投资价值的50家物联网企业名单发布

    19日,《2017中国工业物联网产业白皮书》在京发布。同时,“2017中国工业物联网投资价值五十强”公布,其中,设备制造商19家,平台提供商10家,系统集成商2...

    企鹅号小编
  • mtools介绍与安装

    mtools是一组帮助脚本,可用于解析、过滤和可视化MongoDB的日志文件(mongod,mongos)。 mtools还包括mlaunch,您可以使用mla...

    MongoDB中文社区
  • 开源小工具

    最近随着SRE团队的成长,python作为团队的仅次于Java的核心技能,重要性不言自明。而自己作为管理者和python初级开发能力者只会动动嘴皮子的话,实在感...

    曲水流觞
  • 90%的测试都不能临场完美解答的面试题,您知道吗?

    "上周我去腾讯面试几轮技术面完后,我松了一口气~ 在资深HR软技能三问的考查下,我居然丢分了!"

    测试小兵
  • 为什么说VDI云桌面比传统***能更好的支撑远程办公

        疫情期间,会颠覆掉一些行业,也会助力崛起一些新的行业,不做变革注定要被淘汰。2003年的非典涌现出了淘宝网、京东等一批线上企业,2020年的新冠云办公、...

    SuperDream
  • 谈谈基于OAuth 2.0的第三方认证 [上篇]

    对于目前大部分Web应用来说,用户认证基本上都由应用自身来完成。具体来说,Web应用利用自身存储的用户凭证(基本上是用户名/密码)与用户提供的凭证进行比较进而确...

    蒋金楠
  • 为什么说VDI云桌面比传统V**能更好的支撑远程办公

    疫情期间,会颠覆掉一些行业,也会助力崛起一些新的行业,不做变革注定要被淘汰。2003年的非典涌现出了淘宝网、京东等一批线上企业,2020年的新冠云办公、云在线教...

    SuperDream

扫码关注云+社区

领取腾讯云代金券