原创内容
No.761
认真聊AI | 自然语言处理
终于有一点不那么抽象的内容了,真不容易~
图片由夸克AI绘制
概括而言,人工智能包括运算智能、感知智能、认知智能和创造智能。
运算智能就是计算和记忆能力,在这一点上,计算机早已远超人类。感知智能就是对周围环节的感知能力,比如视觉、听觉和触觉,这些年随着语音识别和图像识别技术的进步也有了和很大的进步,很多场景下也都具备了商业应用能力。感知能力就是指计算机对语言和对知识的理解,最近大火的大语言模型就属于此列。而创造智能则是根据已有的经验对未发生的事物进行预测,通过想象力设计、实验、验证并予以实现的智力过程。
自然语言处理属于认知智能中非常重要的一部分,在很多领域中都有着应用,很多数据分析都多少能说出几句自然语言处理的步骤——分词、词性标注、依存句法分析和命名实体识别。
分词是最熟悉的,我们在做词云图这样的视觉对象的时候,都需要先做一下分词之后才能进行处理。
NLP的历史几乎跟计算机和人工智能一样长,计算机出现后就有了人工智能的研究。人工智能的早期研究已经涉及机器翻译以及自然语言理解,基本分为三个阶段。
第一阶段是基于规则来简历词汇、句法语义分析、问答、聊天和机器翻译系统。好处是规则可以利用人类的内省知识,不依赖数据,可以快速起步;问题是覆盖面不足,像个玩具系统,规则管理和可扩展一直没有解决。
第二阶段是基于统计的机器学习ML开始流行,很多NLP开始用于统计的方法力作。主要思路是利用带标注的数据,基于人工定义的特征,建立机器学习系统,并利用数据经过学习缺点机器学习系统的参数。
第三阶段是深度学习开始在语音和图像发挥威力。随之,NLP研究者开始把目光转向深度学习。比如,搜索引擎加入了深度学习的搜索词和文档的相似度计算,以提升搜索的相关度。
对于自然语言处理技术的应用,比如神经机器翻译、智能人机交互、阅读理解、机器创作。
机器翻译的发展要溯源到17世纪,早在17世纪,法国著名哲学家笛卡尔为了将不同语言中表达相同意义的词转换为统一的符号,提出了世界语的概念,在此基础上,机器翻译的概念正式形成。机器翻译从提出到发展到现在,从方法上可以分为基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和神经机器翻译四个阶段。随着计算能力的进一步提升,特别是基于GPU的并行化训练的快速发展,基于深度神经网络的方法在自然语言处理中逐渐受到关注。
机器翻译建模可以看作是一个特殊的语言模型,机器翻译使用目标语言的语言模型来预测某个句子的生成概率,但是需要以源语言句子作为条件。基于编码器解码器架构的神经机器翻译模型在翻译比较短的句子时效果尚可,但是在翻译比较长的句子时,由于最先输入的词的信息在经历多步的循环神经单元的运算后很难被保留下来,从而使得翻译质量下降得比较严重。因此又引入了注意力的机制,进一步提高了编码器解码器框架在长句子上的翻译质量,使得神经机器翻译的模型质量远超了基于统计的翻译模型。
常见的自然语言人机交互系统有两种,一种是对话系统,一种是聊天机器人。
对话系统是指以完成特定任务为主要目的的人机交互系统,早期的对话系统都是以完成单一的任务为主的,后来的各种语音助手也都属于此列。大多数的对话系统豆油三个部分构成——对话理解、对话管理和回复生成。
对话理解模块负责对用户输入的对话内容进行包括领域分类、用户意图分类和槽位填充在内的语义分析任务。对话管理模块主要由对话状态跟踪和对话策略优化两个部分构成,前者负责在每轮对话结束时对整个对话状态进行动态更新,后者负责根据更新后的对话状态决定接下来系统将采取的行动。回复生成模块负责根据对话管理模块输出的系统行动指令生成对应的自然语言回复并返回给用户。
聊天机器人是对话机器人的进阶版本,基本分类三类,基于规则的聊天机器人、基于检索的聊天机器人和基于生成的聊天机器人。
基于规则的机器人是最简单的,设计者会预先设定好一些规则,比如关键词回复字典、条件终止判断以及一些更复杂的输入分类器。基于规则的聊天机器人的优点是回复可控,每条回复均由设计者撰写,并且其回复触发的逻辑也被精心设计。然而缺点在于聊天的规则是无穷无尽的,很难通过人工撰写模板的方式穷举,系统的可扩展性较弱。
检索式聊天机器人是利用成熟的搜索引擎和人类对话语料构建的聊天机器人系统。检索式聊天机器人分为线上和线下两部分。线下部分由索引、匹配模型以及排序模型三个部分组成,这三个模块分别为线上产生候选回复、信息-回复对的特征描述以及回复获选的排序。检索式聊天机器人的本质是利用已有的人类回复进行筛选重用来回复新的信息,缺点也很明显,回复的好坏程度依赖于索引的质量和是否能够检索到合适的候选,有时候会给出一些不恰当或者违反人类常识的回答。
生成式聊天机器人是指利用自然语言生成技术对给定对话上下文直接生成一句完整的话语进行回复。此类聊天机器人的缺点是容易被一些人类对话语言库中的 普适回答给带偏(比如:是啊/我也觉得),然后愉快地把天聊死。