前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习实现问答机器人

深度学习实现问答机器人

作者头像
IT派
发布2018-03-29 14:29:33
7920
发布2018-03-29 14:29:33
举报
文章被收录于专栏:IT派

摘 要

在问答系统的应用中,用户输入一个问题,系统需要根据问题去寻找最合适的答案

针对该应用场景,有三种处理方式:

1:采用句子相似度的方式。根据问题的字面相似度选择相似度最高的问题对应的答案,但是采用这种字面相似度的方式并不能有效的捕获用户意图的能力有限。

2:IBM早期应用在watson系统中的DeepQa算法。该算法通过人工抽取一系列的特征,然后将这些特征输入一个回归模型。该算法普适性较强,并且能有效的解决实际中的问题,但是准确率和召回率一般。

3:深度学习算法。依然是IBM的watson研究人员在2015年发表了一篇用CNN算法解决问答系统中答案选择问题的paper。通过深度学习算法不仅能够避免了人工手动抽取大量的问题特征的麻烦,并且取得了比DeepQa更好的效果。

深度学习算法简介

CNN算法在文本分类中的应用

LSTM内部结构图

GRU内部结构图

Attention机制在NMT中的应用

目前最为常用的深度学习算法分别为CNN、LSTM、GRU和Attention机制结合前面三种算法综合应用。大量的实验证明,在大数据量的情况下,深度学习算法比传统自然语言算法可以获得更优的结果。并且深度学习算法无需手动抽取特征,因此实现相对简便。其中CNN算法被大量的研究和使用,CNN算法的优点在于实现简单(卷积)、并且能够捕获数据位置(单字成词情况下,一次窗口的卷积类似于一次切词的操作)的特征信息。但是对于时序的数据,LSTM算法比CNN算法更加适合。LSTM算法综合考虑的问题时序上的特征,通过3个门函数对数据的历史状态特征进行控制,因此能够捕获距离当前词较远的信息。GRU算法相比LSTM算法更为简单,通过一个update门函数替代了LSTM中的input和update门函数。LSTM算法和GRU算法在具体的应用中并无绝对的优胜,部分实验证明:GRU算法在数据量相对较小时能获得更优的效果,并且速度更快;而LSTM算法则在大数据量时表现更优。综上所述,CNN算法更加注重局部的信息,LSTM、GRU则对两端的信息更为看重,因此当我们不确定什么位置的信息更为重要的情况下,Attention机制结合CNN、LSTM或者GRU能够获得更佳的性能。

深度学习算法在FAQ中的应用

1

机器学习三要素:建模、目标函数和优化器。

问答系统一般采用一问一答的形式,即根据用户问题匹配最佳答案。因此针对该场景我们可以采用三元组

的方式建模

根据我们建立的模型,我们的目标是(问题、最佳答案)的特征尽量远离(问题、其它答案)的特征。因此我们的目标函数为:

从上面的公式可以看出,我们希望(问题、最佳答案)的特征和(问题、其它答案)的特征保持在一定距离。过大或者过小都容易造成模型过拟合。

常见的优化器有SGD,Adagrad,Adadelta,Adam,Adamax,Nadam。从公式可以看出SGD优化器在每次优化的过程中都是同等对待;而其它自适应优化器则会根据当前特征计算不同的学习速率。相对而言,SGD优化器更加依赖初始学习速率,并且模型训练时间更长。而其它自适应优化器更容易得到一个相对较好的效果。

2

文本预处理

1):针对用户的输入我们需要切词以获得整个句子的特征,常见的切词方式有:基于规则的切词、基于统计的切词(HMM等)以及按字切词。这里的实验都是采用按字切词,本文实验训练数据相对较少,如果采用基于规则或者统计的方式切词会带来大量的未登录词,并且采用这种方式计算较为复杂。

2):对于输入文本长度不一致的问题,这里采用短文本补全,长文本截断的方式。

3):针对按字切词的数据采用word2vec进行预训练,获得每个字对应的稠密向量(相比onehot编码,稠密向量解决了onehot编码在不同词时完全不一样的问题)。

3

深度学习算法实验

1):CNN算法在问答中的应用

CNN算法结构图

2):LSTM算法在问答中的应用

BILSTM算法结构图

参数设置:

1、这里优化函数采用论文中使用的SGD(采用adam优化函数时效果不如SGD)。

2、学习速率为0.1。

3、训练150轮,大概需要1天的时间,从训练日志观察得到,100轮左右基本达到稳定。

4、margin这里采用0.1,其它参数也试过0.05、0.2效果一般。

5、这里训练没有采用dropout和l2约束,之前试过dropout和l2对实验效果没有提升,这里就没有采用了。

6、batch_size这里采用100。

7、rnn_size为300(继续调大没有明显的效果提升,而且导致训练速度减慢)

8、目标函数采用cosine_similary,实验时也试过欧几里德距离,但是效果不佳。

3):CNN+LSTM组合模型在问答中的应用

CNN+LSTM组合算法

参数设置:

1、这里优化函数采用论文中使用的SGD。

2、学习速率为0.05。

3、训练300轮。

4、margin这里采用0.05,其它参数也试过0.1、0.2效果一般。

5、这里训练没有采用dropout和l2约束,之前试过dropout和l2对实验效果没有提升,这里就没有采用了。

6、batch_size这里采用128。

7、rnn_size为200。

8、filter_size为1、2、3(相比1、2的组合效果稍好),num_filter为500.

9、目标函数采用cosine_similary,实验时也试过欧几里德距离,但是效果不佳。

4):GRU算法在问答中的应用

参数设置:

1、这里优化函数采用论文中使用的SGD(采用adam优化函数时效果会差大概2个点)。

2、学习速率为0.1。

3、训练100轮,大概需要6个小时的时间。

4、margin这里采用0.15,其它参数也试过0.05、0.1效果一般。

5、这里训练没有采用dropout和l2约束,之前试过dropout和l2对实验效果没有提升,这里就没有采用了。

6、batch_size这里采用问题30字、答案100字。

7、rnn_size为150(继续调大没有明显的效果提升,而且导致训练速度减慢)

8、目标函数采用cosine_similary。

5):LSTM+ATTENTION算法在问答中的应用

CNN+LSTM组合算法

参数设置:

1、这里优化函数采用论文中使用的SGD。

2、学习速率为0.1。

3、训练150轮,大概需要1天的时间,从训练日志观察得到,100轮左右基本达到稳定。

4、margin这里采用论文中的0.2,其它参数也试过0.05、0.1效果一般。

5、这里训练没有采用dropout和l2约束,之前试过dropout和l2对实验效果没有提升,这里就没有采用了。

6):INNER ATTENTION + GRU在问答中的应用

IARNN-WORD算法结构图

IARNN-WORD算法参数设置:

1、这里优化函数采用论文中使用的SGD(采用adam优化函数时效果会差大概1个点)。

2、学习速率为0.1。

3、训练150轮,大概需要7个小时的时间。

4、margin这里采用0.2,其它参数也试过0.15、0.1效果一般。

5、这里训练没有采用dropout和l2约束,之前试过dropout和l2对实验效果没有提升,这里就没有采用了。

6、batch_size为20。

7、这里问题和答案长度都采用100字。

8、rnn_size为300(继续调大没有明显的效果提升,而且导致训练速度减慢)

9、字预训练采用100维。

IARNN-GATE算法参数设置:

1、这里优化函数采用论文中使用的SGD(采用adam优化函数时效果会差大概1个点).

2、学习速率为0.1。

3、训练150轮。

4、margin这里采用0.2,其它参数也试过0.15、0.1效果一般。

5、这里训练没有采用dropout和l2约束,之前试过dropout和l2对实验效果没有提升,这里就没有采用了。

6、batch_size为32

7、这里问题长度保持30字、答案100字。

8、rnn_size为200(继续调大没有明显的效果提升,而且导致训练速度减慢)

9、字预训练采用100维。

IARNN-GATE算法结构图

4

深度学习算法实验效果对比(训练语料insuranceQA)

QA_CNN:0.62左右

QA_LSTM_CNN:0.67左右(这里只用了单向的lstm)

QA_BILSTM:0.68左右

QA_BIGRU :0.669左右

QA_LSTM_Attention :0.686左右

IARNN-WORD :0.6911左右

IARNN-GATE :0.6916左右

5

总 结

1)CNN模型抽取特征注重局部特征。

2)LSTM模型在时序场景下,可以结合更多历史的特征信息。单向的LSTM模型只考虑的顺序的信息,而忽略了逆序的特征信息。但是BILSTM同时考虑的顺序和逆序的特征信息,相对于单向的LSTM,具有更高的性能。但是耗时更长。

3)LSTM、BILSTM考虑的是历史所有信息,这样可能会带来噪声,我们需要的只是与当前相关的信息即可,因此Attention机制可用于实现该思路。

4)本次实验的问答对为3万条左右,试验中采用dropout时并未取得更好的效果。本人分析可能是由于语料相对较少,采用dropout时,只有一部分神经元参与训练,这样会造成整个网络参数的学习未能综合考虑全局信息的调整;而在语料较多时,多次迭代之后网络会学习到一个接近全局学习的参数。

5)本次试验中问题和候选答案共享参数,这样既能减少参数的学习,同时也能加快训练速度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT派 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档