首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

论文|ACL2016最佳论文:用于口语对话系统策略优化的在线自动奖励学习

摘要 计算正确奖励函数的能力对于通过加强学习优化对话系统十分的关键。在现实世界的应用中,使用明确的用户反馈作为奖励信号往往是不可靠的,并且收集反馈花费也十分地高。但这一问题可以有所减轻,如果能提前知道用户的意图或是数据能预先训练任务离线的任务成功预测器。在实践中这两种都不太适合现实中的大多数应用。在这里我们提出了一个在线学习框架,通过带有高斯过程模式的主动学习,对话策略能按照奖励模式共同进行训练。高斯过程开发了一系列连续的空间对话表示,但都是在无监督的情况下使用递归神经网络编码和解码器完成的。试验结果表明所

05

如何用 Keras 为序列预测问题开发复杂的编解码循环神经网络?

本文介绍了如何利用Keras框架开发基于序列数据的循环神经网络模型,并给出了一个序列到序列预测问题的实例。首先介绍了如何定义一个简单的编码器-解码器模型,然后利用Keras的Sequential模型定义了一个基于LSTM的编码器-解码器模型,最后利用Keras的Dataset API从数据集中加载数据并划分训练集和测试集。在划分数据集之后,使用Keras的Sequential模型定义了一个基于LSTM的编码器-解码器模型,并使用Keras的Keras Tuner对模型进行超参数调优。最后,使用Keras的Keras Tuner对模型进行超参数调优,并使用测试集对模型进行评估。实验结果表明,该模型在序列到序列预测问题上的性能优于传统的循环神经网络模型。

00
领券