喜欢就点关注吧!
回归分析
回归分析(regression analysis )是研究一个变量如何随另一些变量变化的方法。例如,学习成绩会受努力的时间,方法,个人的智慧,教育资源等因素影响;疾病的发生与生活环境,方式,遗传因素,自身体质等影响。常见的回归分析有 线性回归、非线性回归、多重线性回归、Logistic回归等等。
本节主要讲解简单线性回归,即研究变量Y随变量X变化的分析,不考虑多自变量对结果变量情况。
回归分析与相关分析的区别与联系
线性回归模型
线性回归(linear regression )是分析两个定量变量间的线性关系。一般地,某一变量(称为Y变量)随另一变量(X变量)变化而变化,且这种变化趋势呈直线趋势。
线性回归方程: Y'=a+bX,
Y'为X对应的实测值Y的总体均数的估计值,X为横坐标(),a为截距,b为斜率
通过个体观测值(X、Y)找到最“合理的”一条直线,尽可能地让所有的散点与它的距离“最近”,得出直线的方程Y'=a+bX 。只要给出一个自变量X的值,就能计算出相应的预测值Y'。
线性回归模型适用条件
(一)因变量Y与自变量X呈线性关系
通过绘制(X、Y)的散点图,观察散点的分布是否具有线性趋势,来判断线性关系是否成立。如果不成立,则可以通过非线性回归分析方法。
(二)每个个体观察值之间互相独立
即任意两个个体的观察值之间不应该有关联性,否则会导致回归分析的估计值不够准确和精确。
(三)在一定范围内,任意给定X值,其对应的随机变量Y均服从正态分布
利用专业知识来判断,也可通过残差的散点图,或者通过预实验测定任意给定X值对应一系列Y值,再检验Y值的正态性来判断。如果不满足正态性,首先应该考虑通过数据变换,使其满足正态性。
(四)在一定范围内,不同X值所对应的随机变量Y的方差相等
通常利用(X、Y)的散点图或残差的散点图来判断方差是否齐性。如果数据不满足等方差条件,可用变量变换使其方差齐性,或者采用加权回归法。
回归参数估计之最小二乘法
通俗地讲, 通过样本数据(X、Y)的散点图,尽可能地让所有的散点与某条直线的距离“最近”,来拟合出最好的一条直线。
理解图;
本次内容到此为止,下期再见。
感谢大家的支持,欢迎批评与指教!!!
领取专属 10元无门槛券
私享最新 技术干货