前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自然语言处理NLP(四)

自然语言处理NLP(四)

作者头像
村雨遥
发布2019-09-09 17:20:32
1.1K0
发布2019-09-09 17:20:32
举报
文章被收录于专栏:JavaParkJavaPark

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/github_39655029/article/details/82930963

实体识别

实体识别–分块类型:
  • 名词短语分块;
  • 标记模式分块;
  • 正则表达式分块;
分块的表示方法:标记和树状图;
分块器评估;
命名实体识别;
  • 命名实体定义:指特定类型的个体,是一些确切的名词短语,如组织、人、日期等;
  • 命名实体识别定义:指通过识别文字中所提及的命名实体,然后确定NE的边界和类型;
命名实体关系提取;

文法分析

  • 文法定义: 即就是文章的书写规则,一般用来指以文字、词语、短句、句子编排而成的完整语句和文章的合理性组织;
  • 文法用途:
    • 1、性能超越n-grams;
    • 2、确定句子成分结构;
形式语法:一个四元组G=(N, ∑, P, S),各个符号代表的意义如下:
  • N:非终结符的有限集合(有事也称为变量级戒句法种类集);
  • ∑:终结符号的有限集合;
  • V:总词汇表,N∪∑;
  • P:一组重写规则的有限集合,P={α→β},其中α,β是V种元素所构成的串,α种至少应该含有一个非终结符号;
  • S:S∈N,叫做句子的符戒初始符;
上下文无关文法:
  • 解析器:
    • 定义:根据文法产生式处理输入的矩阵,同时建立一个或多个符号文法的组成结构;
    • 分类:
      • 递归下降解析器:自上而下模式;
      • 移近-规约解析器:自下而上模式;
      • 左角落解析器:自上而下和自下而上两种模式相结合;
    • 递归下降和左角落解析都存在一定的缺陷,因此可以才用动态规划的方法进行解析;
依存关系与依存文法:
  • 依存文法:关注词与其他词之间的关系;
  • 依存关系:中心词与其他从属直接的二元非对称关系;

当前的一些语法困境

  • 语言数据与无限可能性;
  • 句子构造;
  • 句子歧义问题;

自然语言理解

  • 智能问答系统;
  • 一阶逻辑;
  • 补充运算;
  • 句子语义理解;
  • 段落语义理解;

图灵测试

阿兰·图灵与1950年提出,测试在测试者和被测试者相互隔开的情况下,通过一些简单的装置向被测试者随意提问。通过一些问题之后,若被测试者的答复有超过30%的部分无法让测试者确认出是人还是机器的回答,则此时这台机器通过测试, 且被认为具有人工智能;

命题逻辑

一阶逻辑
  • 语法
    • 独立变量;
    • 独立常量;
    • 带不同参数的谓词;
    • 非逻辑常量;
    • 逻辑常量;
    • 存在量词;
    • 全称量词;
  • 采取约定:<en,t>是由n个e类型的参数所组成而产生一个类型为t的表达式的谓词的类型,此类情况下,则称n为谓词元数;

语句的语义

  • 组合原则:整体含义是部分含义与他们的句法相结合方式的函数;

语料库结构

TIMIT的结构
  • 内容覆盖:方言,说话者,材料;
TIMIT的设计特点
  • 包含语音与字形标注层;
  • 在多个维度的变化与方言地区和二元音覆盖范围中找到一个平衡点;
  • 将原始语音学时间作为录音来捕捉和标注来捕捉之间的区别;
  • 层次结构清晰,结构是树状结构,使用时目的性;
TIMIT的基本数据类型
  • 词典
  • 文本

语料库的生命周期

  • 创建语料库的方案
    • 研究过程中逐步形成;
    • 实验研究过程中收集;
    • 特定语音的参考语料;
  • 质量控制
    • Kappa系数:衡量两个人的判断类别,然后修正其期望一致性,越大一致性越好;
    • windowdiff打分器:衡量两个句子分词的一致性;
  • 维护与演变

数据采集

采集方式
  • 网上获取;
  • 文字处理器文件获取;
  • 电子表格和数据库中获取;
  • 通过数据格式转换获取;
  • 使用Toolbox数据;
标注层
  • 分词;
  • 断句;
  • 分段;
  • 词性;
  • 句法结构;
  • 浅层语义;
  • 对话与段落;
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年10月03日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 实体识别
    • 实体识别–分块类型:
      • 分块的表示方法:标记和树状图;
        • 分块器评估;
          • 命名实体识别;
            • 命名实体关系提取;
            • 文法分析
              • 形式语法:一个四元组G=(N, ∑, P, S),各个符号代表的意义如下:
                • 上下文无关文法:
                  • 依存关系与依存文法:
                  • 当前的一些语法困境
                  • 自然语言理解
                  • 图灵测试
                  • 命题逻辑
                    • 一阶逻辑
                    • 语句的语义
                    • 语料库结构
                      • TIMIT的结构
                        • TIMIT的设计特点
                          • TIMIT的基本数据类型
                          • 语料库的生命周期
                          • 数据采集
                            • 采集方式
                              • 标注层
                              领券
                              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档