智能问答：LSTM 句子相似度分析

机器学习AI算法工程

发布于 2019-10-28 16:18:43

1.4K0

发布于 2019-10-28 16:18:43

文章被收录于专栏：机器学习AI算法工程

使用句子中出现单词的Vector加权平均进行文本相似度分析虽然简单，但也有比较明显的缺点：没有考虑词序且词向量区别不明确。如下面两个句子：

“北京的首都是中国”与“中国的首都是北京”的相似度为1。
“学习容易”和“学习困难”的相似度很容易也非常高。

为解决这类问题，需要用其他方法对句子进行表示，LSTM是常用的一种方式，本文简单使用单层LSTM对句子重新表示，并通过若干全连接层对句子相似度进行衡量。

AI项目体验地址 https://loveai.tech

数据准备

训练和测试数据包括两个待比较句子以及其相似度（0-1）：

测试数据格式相似。

语料编码

自然语言无法直接作为神经网络输入，需进行编码该部分包括以下步骤：

读人训练和测试数据，分词，并给每个词编号。
根据词编号，进一步生成每个句子的编号向量，句子采用固定长度，不足的位置补零。
保存词编号到文件，保存词向量矩阵方便预测使用。

中文分词使用jieba分词工具，词的编号则使用Keras的Tokenizer：

词向量映射

在对句子进行编码后，需要准备句子中词的词向量映射作为LSTM层的输入。这里使用预训练的词向量参数，生成词向量映射矩阵：

网络结构

该神经网络采用简单的单层LSTM+全连接层对数据进行训练，网络结构图：

网络由Keras实现：

该部分首先定义embedding_layer作为输入层和LSTM层的映射层，将输入的句子编码映射为词向量列表作为LSTM层的输入。两个LSTM的输出拼接后作为全连接层的输入，经过Dropout和BatchNormalization正则化，最终输出结果进行训练。

训练与预测

训练采用nAdam以及EarlyStopping，保存训练过程中验证集上效果最好的参数。最终对测试集进行预测。

小结

该网络在Kaggle Quora数据集val验证可达到80%左右的准确率，应用于中文，由于数据集有限，产生了较大的过拟合。此外在Tokenizer.fit_on_texts应用于中文时，不支持Unicode编码，可以对其源码方法进行重写，加入Ascii字符和Unicode的转换。

原文 https://www.jianshu.com/p/a649b568e8fa

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-07-17，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

深度学习

人工智能

编程算法

本文分享自机器学习AI算法工程微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度