最重要的一集 | 【SAS Says·扩展篇】IML:6.作业

咱们的SAS矩阵交互语言IML就要完结了,本文将会用IML编一个回归程序。无论你需要一元的还是多元的回归模型,该程序都能计算出模型的系数、t检验以及t检验的p值、F检验以及F检验的P值、R2。

本文会综合用到前面几节的内容(回复【SASIML】查看全部):

  • 入门 | SAS里的平行世界
  • 函数 | 函数玩一玩
  • 编程 | IML的条件与循环
  • 模块 | 5分钟懂模块
  • 穿越 | 矩阵与数据集的穿越
  • 作业 | 编一个SAS回归软件

如果前面都没有看过,没关系,根据下面的代码提示,翻阅相关内容,可以把五集的内容过一遍。


用SAS编一个回归软件 | 【SAS Says · 扩展篇】IML:作业

上次Ansta留给自己的作业是:

Sashelp逻辑库中有一个关于GNP的数据sashelp.gnp,要求用1961、1962、1963三年的数据建立回归模型: GNP = consump + invest 用的变量有:

  • GNP-gross national product ($billions)
  • Consump-personal consumption expenditures
  • Invest-gross private domestic investment

要求:给出系数、R2、t检验的p值。

可以说,把这一道题弄明白了,基本前面几节的内容都掌握的差不对了。

Part 1

可爱的代码

先把我自己的代码贴出来。

我们再跑一边proc reg,对比两种方法的结果:

data gnp_1963;

set sashelp.gnp;

if _n_ <17;

keep gnp consump invest;

proc reg;

model gnp= consump invest;

run;

IML跑出来的结果为:

ProcReg跑出来的结果为:

怎样?beta值、t值、F值、R2都是一样的吧!

由于ProcReg的P值只给到<0.0001,没有具体的数字,我用R也跑了一遍:

T检验的P值,和我们用IML跑出来的也是一样的吧?

这个例子用到了我们前面说的很多内容,我们还可以把第二步到最后的部分打包成一个模块regress,然后下次有其他数据回归的时候,直接调用即可——Run regress;

Part 2

理论的回忆

有p元线性回归模型:

则p元线性回归模型简写为

同时,有

下面,我们就来对多元回归模型的拟合、检验过程进行推导:

一、系数的最小二乘拟合

用最小二乘法估计参数b。记

最小二乘法估计就是要选取

使得

因为H(b)b0、b1、…、bp的非负二次式,且关于b0、b1、…、bp均可微,由微积分原理,b是下列方程的解:

下面先求出

。因为

对H(b) 求微商,得:

令:-2X'y + 2X'Xb = 0

得:X'Xb = X'y

存在时,b的最小二乘估计

预测向量

就为:

二、回归模型的检验

(1) 可决系数

(2)F检验

(3)t检验

由于

以Cii表示(X’X)-1上主对角线的第i个元素,于是参数估计量的方差为:

因此,

服从如下分布:

其中σ2为随机误差项的方差,在实际计算时用它的估计量代替:

因此对回归系数的t检验,就可以构造如下t统计量:

当然…首先…你要明白什么是t检验…

回归系数t检验的假设是beta=0,因此,在原假设成立的情况下,t统计量的值为:

到此还没结束,因为这里有一个很重要的地方大家会忽略,就是α和α/2的问题,导致计算P值的时候容易出错。

正常我们用查表法怎么判别?

给定显著性水平α,查表得临界值

,对比计算出来的t和

那么用P值法呢?

计算出来的t,通过分布概率函数得到t对应的那个p/2,那么再乘以2,就是要求的P值了。

原文发布于微信公众号 - 数说工作室(shushuojun)

原文发表时间:2015-12-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

手把手教你用 TensorFlow 实现文本分类(下)

本篇文章主要记录对之前用神经网络做文本识别的初步优化,进一步将准确率由原来的65%提高到80%,这里优化的几个方面包括: ● 随机打乱训练数据 ● 增加隐层,和...

3554
来自专栏阮一峰的网络日志

相似图片搜索的原理

上个月,Google把"相似图片搜索"正式放上了首页。 你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。 ? 一个对话框会出现。 ?...

5457
来自专栏落影的专栏

GPUImage详细解析(十二)Sobel边界检测

前言 卷积运算是一个看似复杂的概念,今天来揭开这个神秘的面纱。 卷积矩阵:卷积矩阵是一个由权重数据组成的矩阵,中心像素周围像素的亮度乘以这些权重然后再相加就能...

4235
来自专栏数据科学学习手札

(数据科学学习手札14)Mean-Shift聚类法简单介绍及Python实现

不管之前介绍的K-means还是K-medoids聚类,都得事先确定聚类簇的个数,而且肘部法则也并不是万能的,总会遇到难以抉择的情况,而本篇将要介绍的Mean-...

4798
来自专栏大数据杂谈

【Excel系列】Excel数据分析:抽样设计

一、随机数发生器 1. 随机数发生器主要功能 “随机数发生器”分析工具可用几个分布之一产生的独立随机数来填充某个区域。可以通过概率分布来表示总体中的主体特征。...

3538
来自专栏数据小魔方

人口金字塔图

今天跟大家分享的图表是——人口金字塔图! 人口金字塔图是按照人口年龄和性别表示人口分布状况的情况,能形象的表示人口某一年龄和性别构成。 该图表对于数据组织的要求...

4067
来自专栏PHP在线

相似图片搜索的原理

上个月,Google把”相似图片搜索”正式放上了首页。 你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。 ? 一个对话框会出现。 ?...

3435
来自专栏CVer

[计算机视觉论文速递] ECCV 2018 专场2

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、for...

1180
来自专栏CreateAMind

lecun-20161209-nips-能量模型GAN

第二部分视频预测个人觉得lecun论文不如这篇论文:运动信息向量的神经网络学习 code、ppt、视频ok

1013
来自专栏计算机视觉与深度学习基础

计算机视觉与图像处理学习笔记(一)

写在前面:因学习需要,本人根据章毓晋的《计算机视觉教程》和冈萨雷斯的《数字图像处理》两本书进行学习,中间会穿插相关实践,会有对opencv的学习,以此笔记记录学...

2486

扫码关注云+社区

领取腾讯云代金券