前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >第1章 导论

第1章 导论

作者头像
村雨遥
发布2019-09-09 17:16:14
2980
发布2019-09-09 17:16:14
举报
文章被收录于专栏:JavaParkJavaPark

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/github_39655029/article/details/97036419

前言

  • 定义 自然语言处理即NLP是一门交叉学科,包含语音和语言处理、人类语言技术、计算语言学以及语音识别与合成等。
  • 应用场景
    • 会话代理(对话系统)
    • 机器翻译
    • 基于网络的问答系统
    • 拼写校正
    • 语法检查
    • 信息抽取
    • 词义排歧

1.1 语音与语言处理中的知识

  • 语音学与音系学 关于语言语音的知识。
  • 形态学 关于词的有意义的组成成分的知识。
  • 句法学 关于词与词之间结构结构关系的知识。
  • 语义学 关于意义的知识。
  • 语用学 关于意义与说话人的目的和意图之间关系的知识。
  • 话语学 关于比一个单独的话段更大的语言单位的知识。

1.2 歧义

  • 消歧方法
  • 词类标注
  • 词义排歧
  • 词汇排歧
  • 句法排歧

1.3 模型与算法

  • 几个重要部分
    • 状态机器模型 即形式模型,应该包括状态、状态间的转移以及输入表示等,其变体有确定的有限状态自动机、非确定的有限状态自动机和有限状态转录机。
    • 形式规则系统模型 即陈述性模型,其中最重要的有正则语法、正则关系、上下文无关语法、特征增益语法以及这些语法相应的概率语法变体。
    • 基于逻辑的模型 一阶逻辑即谓词演算,以及诸如运算、特征结构、语义基元等相关形式化方法。
    • 概率模型 状态机器使用概率论来提升,从而成为加权自动机,或马尔可夫模型。
    • 向量空间模型 实质是通过表示输入假定的状态空间来进行搜索。对弈涉及状态机的非概率的任务,使用深度优先搜索之类的图算法,而对于具有概率的任务,则使用最佳优先搜索算法和A*搜索算法等试探性算法的变体,同时依靠动态规划算法来提高计算的可循环性。
    • 分类器 将一个单独客体指派到一个单独类别中。
    • 序列模型 对一个客体序列进行分类,将其排到一个类别序列中。
  • 算法
    • 动态规划的状态空间搜索算法
    • 分类器算法
    • 期望最大化(EM)算法

1.6 语音和语言处理简史

语音和语言处理包括一系列性质不同而又彼此交叉的学科:语言学中的计算语言学、计算机科学中的自然语言处理、电子工程中的语音识别、心理学中的计算心理语言学

1.6.1 基础研究:1940s&1950s

自动机的研究和概率模型信息论模型研究引起人们注意。

1.6.2 两大阵营:1957~1970

  • 符号派
  • 随机派

1.6.3 四个范型:1970~1983

  • 随机范型
  • 基于逻辑的范型
  • 自然语言理解范型
  • 话语模型范型

1.6.6 机器学习的兴起:2000~2008

  • 建立带标记语料库的趋势
  • 统计机器学习的趋势
  • 高性能计算机系统发展的趋势
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019年07月23日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 1.1 语音与语言处理中的知识
  • 1.2 歧义
  • 1.3 模型与算法
  • 1.6 语音和语言处理简史
    • 1.6.1 基础研究:1940s&1950s
      • 1.6.2 两大阵营:1957~1970
        • 1.6.3 四个范型:1970~1983
          • 1.6.6 机器学习的兴起:2000~2008
          相关产品与服务
          NLP 服务
          NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档