专栏首页利炳根的专栏学习笔记CB003:分块、标记、关系抽取、文法特征结构
原创

学习笔记CB003:分块、标记、关系抽取、文法特征结构

分块,根据句子的词和词性,按照规则组织合分块,分块代表实体。常见实体,组织、人员、地点、日期、时间。名词短语分块(NP-chunking),通过词性标记、规则识别,通过机器学习方法识别。介词短语(PP)、动词短语(VP)、句子(S)。

分块标记,IOB标记,I(inside,内部)、O(outside,外部)、B(begin,开始)。树结构存储分块。多级分块,多重分块方法。级联分块。

关系抽取,找出实体间关系。实体识别认知事物,关系识别掌握真相。三元组(X,a,Y),X、Y实体,a表达关系字符串。通过正则识别。from nltk.corpus import conll2000,print(conll2000.chunked_sents('train.txt')[99]) 。

文法,潜在无限句子集合紧凑特性。形式化模型,覆盖所有结构句子。符合多种文法句子有歧义。只能用特征方法处理。

文法特征结构,单词最后字母、词性标签、文法类别、正字拼写、指示物、关系、施事角色、受事角色。文法特征是键值对,特征结构存储形式是字典。句法协议、属性、约束、术语。import nltk,fs1 = nltk.FeatStruct(TENSE='past', NUM='sg') ,fs2 = nltk.FeatStruct(POS='N', AGR=fs1) 。nltk产生式文法描述 /nltk_data/grammars/book_grammars 。sql0.fcfg,查找国家城市sql语句文法:

% start S

S[SEM=(?np + WHERE + ?vp)] -> NP[SEM=?np] VP[SEM=?vp]

VP[SEM=(?v + ?pp)] -> IV[SEM=?v] PP[SEM=?pp]

VP[SEM=(?v + ?ap)] -> IV[SEM=?v] AP[SEM=?ap]

NP[SEM=(?det + ?n)] -> Det[SEM=?det] N[SEM=?n]

PP[SEM=(?p + ?np)] -> P[SEM=?p] NP[SEM=?np]

AP[SEM=?pp] -> A[SEM=?a] PP[SEM=?pp]

NP[SEM='Country="greece"'] -> 'Greece'

NP[SEM='Country="china"'] -> 'China'

Det[SEM='SELECT'] -> 'Which' | 'What'

N[SEM='City FROM city_table'] -> 'cities'

IV[SEM=''] -> 'are'

A[SEM=''] -> 'located'

P[SEM=''] -> 'in'

加载文法描述

import nltk

from nltk import load_parse

cp = load_parser('grammars/book_grammars/sql0.fcfg')

query = 'What cities are located in China'

tokens = query.split()

for tree in cp.parse(tokens):

print(tree)

参考资料:

《Python 自然语言处理》

http://www.shareditor.com/blogshow?blogId=70

http://www.shareditor.com/blogshow?blogId=71

欢迎推荐上海机器学习工作机会,我的微信:qingxingfengzi

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学习笔记DL004:标量、向量、矩阵、张量,矩阵、向量相乘,单位矩阵、逆矩阵

    线性代数,面向连续数学,非离散数学。《The Matrix Cookbook》,Petersen and Pedersen,2006。Shilov(1977)。

    利炳根
  • 学习笔记TF067:TensorFlow Serving、Flod、计算加速,机器学习评测体系,公开数据集

    TensorFlow Serving 。生产环境灵活、高性能机器学习模型服务系统。适合基于实际数据大规模运行,产生多个模型训练过程。可用于开发环境、生产环境。

    利炳根
  • 学习笔记CB001:NLTK库、语料库、词概率、双连词、词典

    聊天机器人知识主要是自然语言处理。包括语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评...

    利炳根
  • 缺陷管理工具

    QC(HP) • BugZilla • JIRA • 禅道 • 其他在线项目管理系统 JIRA • http://jira.qyguo.cn/secu...

    瑞新
  • ​在群晖docker上装elmlang可视调试编码器ellie

    在前面发布《elmlang时》我们谈到elmlang的函数FRP和可视调试特征,使得为其装配一个live ide变得可能,elmlang提供的插件,已经使其它能...

    minlearn
  • Linux安装redis,并设置访问权限,及使用可视化工具

    一. 官网下载对应版本的redis 二. 拷贝至linux服务器并解压 将压缩包拷贝到/usr/local目录下 解压, 解压后重命名为redis 三. 编译安...

    企鹅号小编
  • 史上最污技术解读,60 个 IT 术语我竟然秒懂了......

    假设你是个妹子...... ? 假设你是个妹子,你有一位男朋友,于此同时你和另外一位男生暧昧不清,比朋友好,又不是恋人。你随时可以甩了现任男友,另外一位马上就能...

    java思维导图
  • 史上最污技术解读,我竟然秒懂了

    假设你是个妹子,你有一位男朋友,于此同时你和另外一位男生暧昧不清,比朋友好,又不是恋人。你随时可以甩了现任男友,另外一位马上就能补上。这是冷备份。 假设你是个妹...

    企鹅号小编
  • 2015节点——思考的一年:IT书单

    照例(高速发展的一年)还是发一下今年的书单。不过,和去年的相比已经去除了非IT类书籍。 大体还是四个方向吧: 架构 前端 数据 工程实践 然后就是书单了。。 前...

    Phodal
  • 史上最污技术解读,我竟然秒懂了

    假设你是个妹子,你有一位男朋友,于此同时你和另外一位男生暧昧不清,比朋友好,又不是恋人。你随时可以甩了现任男友,另外一位马上就能补上。这是冷备份。 假设你是个妹...

    前朝楚水

扫码关注云+社区

领取腾讯云代金券