序列预测问题的简单介绍

AiTechYun

发布于 2018-03-05 14:30:30

1.7K0

发布于 2018-03-05 14:30:30

文章被收录于专栏：ATYUN订阅号

序列预测与其他类型的监督学习问题不同。这个序列在观察结果上被强加了一个命令：当训练模型和做预测时序列必须保存。通常，包含序列数据的预测问题被称为序列预测问题，尽管他们是一些基于不同输入和输出序列的问题。

在本教程中，你将学到不同类型的序列预测问题。

完成本教程后，你将知道：

序列预测问题的四种类型。
专家对每种类型的序列预测问题的定义。
每种类型的序列预测问题的实际例子。

让我们开始吧。

教程概述

本教程分为5部分; 他们是：

序列
序列预测
序列分类
序列生成
序列到序列的预测

序列

我们经常在应用机器学习中处理集合，如训练或测试样本集合。

集合中的每个样本都可以被认为是一个从域中的观察。

在一个集合中，观察的顺序并不重要。

有一个序列不太一样。这个序列对观察结果施加明确的顺序。

顺序是很重要的。在使用序列数据作为模型的输入或输出的预测问题的制定中必须遵守。

序列预测

序列预测涉及预测给定输入序列的下一个值。

例如：

给定：1，2，3，4，5
预测：6

序列预测试图在前面元素的基础上预测一个序列的元素。

—序列学习: 从识别和预测到顺序决策, 2001.

预测模型通过一系列训练序列来训练，一旦经过训练，这个模型就被用来执行序列预测。预测包括预测序列的下一个项。这个任务有很多的应用，如网页抓取、消费者产品推荐、天气预报和股票市场预测。

—CPT +:减少紧凑预测树的时间/空间复杂度，2015.

序列预测通常也被称为“序列学习”。

学习顺序数据仍然是一项基本任务，这也是模式识别和机器学习的挑战。涉及顺序数据的应用程序可能需要预测新的时间，生成新的序列，或者进行序列或子序列分类等决策。

—使用可变阶马尔可夫模型预测，2004.

严格的说，我们可以将这篇文章中的所有问题称为序列预测问题。这可能会让初学者感到困惑。

序列预测问题的一些例子包括：

天气预报：根据一段时间的天气观测数据，预测明天的天气。
股市预测：给定证券的随时间推移的序列，预测证券接下来的走向。
产品推荐：给出过去客户消费的序列，预测下一次客户会购买什么。

序列分类

序列分类包括预测给定输入序列的类标签。

例如：

给定：1，2，3，4，5
预测：“好”或“坏”

序列分类的目的是使用标有标签的记数据集D构建分类模型，以便该模型可用于预测未知序列的类别标签。

– 第14章，数据分类：算法和应用，2015.

输入序列可以由实数值或离散值组成。如果包含离散值，则这样的问题可以被称为离散序列分类。

序列分类问题的一些例子包括：

DNA序列分类：给定ACGT值的DNA序列，预测序列代码为编码或是非编码区域。
异常检测：给定序列的观察结果，预测序列是否异常。
情感分析：给出序列的文本，如评论或推特，可以预测文本的包涵的情绪是积极的还是消极的。

序列生成

序列生成包含生成一个与语料库中其他序列具有相同一般特性的新输出序列。

例如：

给定：[1，3，5]，[7，9，11]
预测：[3，5，7]

通过处理真实的数据序列递归神经网络可以为序列生成接受训练，并预测接下来会发生什么。假设预测是概率性的，可以从训练网络通过从网络的输出分布迭代地采样来生成新的序列，然后在下一步中传入样本中的输入。换句话说，让网络将它的发明看成是真实的，很像让人做梦。

– 用递归神经网络生成序列，2013.

序列生成问题的一些例子包括：

文本生成：给出一个文本语料库，比如莎士比亚的作品，生成新的读起来像莎士比亚的句子。
手写预测：给出一个手写实例的语料库，为在语料库中具有手写属性的新短语生成手写。
音乐生成：给出音乐实例的语料库，产生具有语料库属性的新音乐片段。

序列生成还可以涉及给出一个单独的观察作为输入的序列的生成。

这个例子是图像的自动文本描述。

图像字幕生成：给定图像作为输入，生成描述图像的单词序列。

使用恰当的英语句子来自动描述图像的内容是一个非常具有挑战性的任务，但它可能会产生巨大的影响，比如通过帮助视障人士更好地理解网上图像的内容。事实上，描述不仅要捕捉图像中包含的对象，而且还必须表达这些对象之间的关系，以及它们的属性和参与的活动。而且，上述语义知识必须用自然语言如英语来表达，这意味着除了视觉理解之外，还需要一种语言模型。

—显示和讲述：神经图像字幕发生器，2015.

从序列到序列的预测

从序列到序列的预测涉及在给定输入序列的情况下预测输出序列。

例如：

给定：1，2，3，4，5
预测：6，7，8，9，10

尽管深度神经网络适应性强和能力都很强，也只能被应用于输入和目标容易编码并且拥有固定维度向量的问题。这是一个很大的限制，因为许多重要的问题最好用长度不是预先知道的序列来表达。例如，语音识别和机器翻译是顺序性的问题。同样地，问题回答也可以被看作是把一个单词的序列映射成一个表示答案的单词序列。

—序列学习与神经网络，2014.

这是对序列预测的精细而富有挑战性的扩展，而不是预测序列中的下一个值，新序列被预测时可能有同样的长度或者是同一时间也可能没有。

这种类型的问题最近在自动文本翻译领域（例如将英语翻译成法语）方面已经有很多研究，可以通过缩写seq2seq来表示。

seq2seq学习的核心是使用递归神经网络将可变长度输入序列映射到可变长度输出序列。seq2seq方法不仅获得了最新的结果，不再仅仅是其最初的应用程序—机器翻译。

—多任务序列到序列学习，2016年。

如果输入和输出序列是时间序列，则问题可以称为多步时间序列预测。

多步时间序列预测：给定时间序列的观察结果，预测未来一段时间内时间步长的观测序列。
文本摘要：给定文本文档，预测描述源文档的重点部分的短文本序列。
程序执行：给定文本描述程序或精确的方程，预测描述正确输出的字符序列。

总结

在本教程中，你学习了不同类型的序列预测问题。

具体来说，你学到了：

4种类型的序列预测问题。
专家对每种类型的序列预测问题的定义。
每种类型的序列预测问题的实际例子。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-09-06，如有侵权请联系 cloudcommunity@tencent.com 删除

监督学习

本文分享自 ATYUN订阅号微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

监督学习

登录后参与评论

0 条评论

热度