首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

关于自然语言处理,你了解多少?

今天我们来学习自然语言处理的内容。

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

01 定义

自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理,使得计算机对其能够可读并理解。自然语言处理的相关研究始于人类对机器翻译的探索。虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词,形成以最小词性为单位,且富含语义的词项单元。

自然语言处理是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解和自然语言生成两部分。它是典型边缘交叉学科,涉及到语言科学、计算机科学、数学、认知学、逻辑学等,关注计算机和人类(自然)语言之间的相互作用的领域。人们把用计算机处理自然语言的过程在不同时期或侧重点不同时又称为自然语言理解、人类语言技术、计算语言学、计量语言学、数理语言学。

02 技术分类

·基于传统机器学习的自然语言处理技术

自然语言处理可将处理任务进行分类,形成多个子任务,传统的机械学习方法可利用SVM(支持向量机模型)、Markov(马尔科夫模型)、CRF(条件随机场模型)等方法对自然语言中多个子任务进行处理,进一步提高处理结果的精度。但是,从实际应用效果上来看,仍存在着以下不足:

传统机器学习训练模型的性能过于依赖训练集的质量,需要人工标注训练集,降低了训练效率。

传统机器学习模型中的训练集在不同领域应用会出现差异较大的应用效果,削弱了训练的适用性,暴露出学习方法单一的弊端。若想让训练数据集适用于多个不同领域,则要耗费大量人力资源进行人工标注。

在处理更高阶、更抽象的自然语言时,机器学习无法人工标注出来这些自然语言特征,使得传统机器学习只能学习预先制定的规则,而不能学规则之外的复杂语言特征。

·基于深度学习的自然语言处理技术

深度学习是机器学习的一大分支,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类、理解的过程。与传统的机器学习相比,基于深度学习的自然语言处理技术具备以下优势:(1)深度学习能够以词或句子的向量化为前提,不断学习语言特征,掌握更高层次、更加抽象的语言特征,满足大量特征工程的自然语言处理要求。(2)深度学习无需专家人工定义训练集,可通过神经网络自动学习高层次特征

03 关联技术

·计算机科学

自然语言处理的最初目的就是实现人和计算机的自然语言对话,计算机作为对话的一个主体是自然语言处理这个概念提出的先决条件。长久以来人们对于机器人应用于生活,成为重要生产力推动社会发展,尤其是使机器人拥有“人的智能”就充满了憧憬,自然语言处理作为人工智能领域的一个重要组成部分,对于推动机器人的真正智能化有标志性作用。近年来计算机性能在数据存储能力、处理速度等方面的大幅提升,为海量数据的处理、概率统计,为发现语言的规律、获得内在联系成为可能。

·互联网技术

互联网的出现使信息的传播更加便捷,依托于互联网技术出现的各种新媒体是信息已成为信息传播的主要途径,各种网络聊天软件增加了人们沟通交流的途径,这些以文字形式出现具有保存一定时间要求的信息带来了数据的爆炸式增长,为利用基于统计的自然语言处理提供了海量资源。依托于互联网技术,出现的开源平台,也是研究者们获取研究资源的重要途径。

·机器学习方法

机器学习是利用数据和经验改进计算机算法、优化计算机性能的多领域交叉学科,可以追溯到17 世纪的最小二乘法、马尔科夫链,但是其真正发展起来应该从20 世纪50 年代算起,经历了“有无知识的学习”的执行、基于图结构及逻辑结构进行系统描述、结合各种应用拓展到对多个概念学习三个阶段的发展,自20 世纪80 年代中叶进入更新的、能够真正使计算机智能化的第四阶段。

今天的课程就到这里,谢谢大家!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OSgYYLRRElxy4TQXtXV7BehA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券