预测模型数据挖掘之预测模型

数据挖掘之预测模型

定性研究与定量研究的结合,是科学的预测的发展趋势。在实际预测工作中,应该将定性预测和定量预测结合起来使用,即在对系统做出正确分析的基础上,根据定量预测得出的量化指标,对系统未来走势做出判断。

回归分析法

基本思想:

根据历史数据的变化规律,寻找自变量与因变量之间的回归方程式,确定模型参数,据此预测。回归问题分为一元和多元回归、线性和非线性回归。

特点:

技术比较成熟,预测过程简单;将预测对象的影响因素分解,考察各因素的变化情况,从而估计预测对象未来的数量状态;回归模型误差较大,外推特性差。

适用范围:

回归分析法一般适用于中期预测。回归分析法要求样本量大且要求样本有较好的分布规律,当预测的长度大于占有的原始数据长度时,采用该方法进行预测在理论上不能保证预测结果的精度。另外,可能出现量化结果与定性分析结果不符的现象,有时难以找到合适的回归方程类型。



时间序列分析法

基本思想:

把预测对象的历史数据按一定的时间间隔进行排列,构成一个随时间变化的统计序列,建立相应的数据随时间变化的变化模型,并将该模型外推到未来进行预测。

适用范围:

此方法有效的前提是过去的发展模式会延续到未来,因而这种方法对短期预测效果比较好,而不适合作中长期预测。一般来说,若影响预测对象变化各因素不发生突变,

利用时间序列分析方法能得到较好的预测结果;若这些因素发生突变,时间序列法的预测结果将受到一定的影响。



灰色预测法

基本思想:

将一切随机变量看作是在一定范围内变化的灰色变量,不是从统计规律角度出发进行大样本分析研究,而是利用数据处理方法(数据生成与还原),将杂乱无章的原始数据整理成规律性较强的生成数据来加以研究,即灰色系统理论建立的不是原始数据模型,而是生成数据模型。

适用范围:

预测模型是一个指数函数,如果待测量是以某一指数规律发展的,则可望得较高精度的预测结果。影响模型预测精度及其适应性的关键因素,是模型中背景值的构造及预测公式中初值的选取。



BP神经网络法

人工神经网络的理论有表示任意非线性关系和学习等的能力,给解决很多具有复杂的不确定性和时变性的实际问题提供了新思想和新方法。利用人工神经网络的学习功能,用大量样本对神经元网络进行训练,调整其连接权值和闭值,然后可以利用已确定的模型进行预测。

神经网络能从数据样本中自动地学习以前的经验而无需繁复的查询和表述过程,并自动地逼近那些最佳刻画了样本数据规律的函数,而不论这些函数具有怎样的形式,且所考虑的系统表现的函数形式越复杂,神经网络这种特性的作用就越明显。

误差反向传播算法(BP算法)的基本思想是通过网络误差的反向传播,调整和修改网络的连接权值和闭值,使误差达到最小,其学习过程包括前向计算和误差反向传播。它利用一个简单的三层人工神经网络模型,就能实现从输入到输出之间任何复杂的非线性映射关系。

目前,神经网络模型已成功地应用于许多领域,诸如经济预测、财政分析、贷款抵押评估和破产预测等许多经济领域。

优点:可以在不同程度和层次上模仿人脑神经系统的结构及信息处理和检索等功能,对大量非结构性、非精确性规律具有极强的自适应功能,具有信息记忆、自主学习、知识推理和优化计算等特点,其自学习和自适应功能是常规算法和专家系统技术所不具备的,同时在一定程度上克服了由于随机性和非定量因素而难以用数学公式严密表达的困难。

缺点:网络结构确定困难,同时要求有足够多的历史数据,样本选择困难,算法复杂,容易陷入局部极小点。



支持向量机法

支持向量机是基于统计学习的机器学习方法,通过寻求结构风险化最小,实现经验风险和置信范围的最小,从而达到在统计样本较少的情况下,亦能获得良好统计规律的目的。其中支持向量机是统计学习理论的核心和重点。支持向量机是结构风险最小化原理的近似,它能够提高学习机的泛化能力,既能够由有限的训练样本得到小的误差,又能够保证对独立的测试集仍保持小的误差,而且支持向量机算法是一个凸优化问题,因此局部最优解一定是全局最优解,支持向量机就克服了神经网络收敛速度慢和局部极小点等缺陷。

核函数的选取在SVM方法中是一个较为困难的问题,至今没有一定的理论方面的指导



组合预测法

在实际预测工作中,从信息利用的角度来说,就是任何一种单一预测方法都只利用了部分有用信息,同时也抛弃了其它有用的信息。为了充分发挥各预测模型的优势,对于同一预测问题,往往可以采用多种预测方法进行预测。不同的预测方法往往能提供不同的有用信息,

组合预测将不同预测模型按一定方式进行综合。根据组合定理,各种预测方法通过组合可以尽可能利用全部的信息,尽可能地提高预测精度,达到改善预测性能的目的。

优化组合预测有两类概念,一是指将几种预测方法所得的预测结果,选取适当的权重进行加权平均的一种预测方法,其关键是确定各个单项预测方法的加权系数;二是指在几种预防方法中进行比较,选择拟合度最佳或标准离差最小的预测模型作为最优模型进行预测。

组合预测是在单个预测模型不能完全正确地描述预测量的变化规律时发挥其作用的。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏达观数据

机器学习技术的重要性:达观数据亲身实践

大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈...

40714
来自专栏机器之心

人人都能读懂的无监督学习:什么是聚类和降维?

选自Medium 作者:Vishal Maini 机器之心编译 参与:Panda 机器学习已经成为了改变时代的大事,一时间似乎人人都应该懂一点机器学习。但机器学...

31410
来自专栏SIGAI学习与实践平台

【技术短文】基于深度负相关学习的人群计数方法

同时在本微信公众号中,回复“SIGAI”+日期,如“SIGAI0515”,即可获取本期文章的全文下载地址(仅供个人学习使用,未经允许,不得用于商业目的)。

934
来自专栏美团技术团队

【机器学习InAction系列】数据清洗与特征处理综述

前言 随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的...

50012
来自专栏机器之心

深度 | 学习如何学习的算法:简述元学习研究方向现状

选自TowardsDataScience 作者:Cody Marie Wild 机器之心编译 参与:李诗萌、李泽南 要想实现足够聪明的人工智能,算法必须学会如何...

3675
来自专栏数据派THU

学好机器学习必备这12条经验 !(附资料)

本文总结了机器学习研究者和从业者的 12 个宝贵经验,包括需要避免的陷阱、需要关注的重点问题、常见问题的答案。

842
来自专栏人工智能

AI的元学习之路

人类的智能的一个关键点在于能力多样性 —— 我们能胜任各种各样的任务。而目前的AI系统则擅长掌握单一技能,例如围棋,Jeopardy(美国的一档电视智力竞赛节目...

3948
来自专栏PPV课数据科学社区

推荐 | 机器学习中的这12条经验,希望对你有所帮助

源 | 全球人工智能 华盛顿大学 Pedro Domingos 教授的“A Few Useful Things to Know about Machine Le...

3006
来自专栏PPV课数据科学社区

人人都能读懂的无监督学习:什么是聚类和降维?

可以说机器学习已经成为了改变时代的大事,一时间似乎人人都应该懂一点机器学习。但机器学习涉及到的数学知识和编程能力往往让没有相关经验的人望而却步。YupTechn...

2844
来自专栏机器之心

ICML 2018 | 腾讯AI Lab提出误差补偿式量化SGD:显著降低分布式机器学习的通信成本

作者:Jiaxiang Wu、Weidong Huang、Junzhou Huang、Tong Zhang

1302

扫码关注云+社区