杏花开医学统计
医学统计教程,统计分析服务
SPSS多元线性回归
分析的操作及结果解读
关键词:SPSS 多元线性回归
上两期,我们对所有类型的回归分析了归纳总结,并且详细讲解了SPSS二元Logistic回归分析的操作及结果解读,具体见下方文章及视频:
SPSS回归分析10种形态汇总视频教程
SPSS二元Logistic回归分析3大技巧视频教程
回归分析是统计学的一个重要分支,它基于各个变量的观测数据,建立变量之间的因果关系。回归分析家族非常庞大,常见的回归分析有线性回归、logistic回归、生存回归等。
本期我们着重讲解回归家族中多元线性回归的SPSS操作,同时给出结果的详细解读,并将多元线性回归的运算结果绘制成图形,从而使得结果更加清晰易懂。大家学会后完全可以运用于自己的数据及论文中。
请观看下方视频教程
全屏播放请关闭手机中“方向锁定”,然后将手机横向放置
1
案例背景
本期案例的研究目的为:探寻年龄、BMI是否会影响心率。我们搜集了165名正常人的年龄、BMI、心率数据,数据情况如下:
2
SPSS多元线性回归操作步骤
多元线性回归小贴士:只要因变量是连续数值型变量,无论自变量是连续型(例如:BMI),还是分类型(例如:家族史、糖尿病),必须选择多元线性回归。本次的案例中,自变量年龄和BMI全部是连续型的,因此直接在SPSS中进行线性回归即可;如果自变量中有分类型(例如:性别,分为男和女),则需要先对自变量进行虚拟化处理。处理之后才可以进行多元线性回归,也就是我们常说的虚拟线性回归(下一期会详细讲解)。
SPSS多元线性回归操作步骤:
第二步:选择对应的自变量和因变量:
2
结果解读
“模型摘要表”显示:R方=0.114,意味着自变量“年龄”和“BMI”可以解释因变量“心率”变化的11.4%,一般而言,R方在30%以上意味着拟合状况良好,而实际数据分析,10%也是可以接受的。
“系数”表显示:年龄显著负向影响心率,影响系数为-0.184<0,且显著性P=0.000<0.05,意味着年龄越大,心率越小;BMI显著正向影响心率,影响系数为0.744>0,且显著性P=0.005<0.05,意味着BMI越大,心率越大;
基于“系数表”的结果,得出回归方程:
心率=65.788-0.184*年龄 0.744*BMI
线性回归模型的诊断:
线性回归模型运算结果的分析非常简单,但是线性回归模型的诊断则是非常复杂的过程。线性回归模型的运算有几个前提条件:
1、样本独立:即165个样本之间不会相互干扰;
2、残差正态:模型的残差服从正态分布;
3、自变量不存在多重共线性:自变量之间不存在极强的相关关系;
只有满足了以上三个条件,那么之前得出的线性回归结果才是准确可靠的。
①样本独立性的判别:
DW值在2附近,意味着样本独立,本案例的DW<2,但是偏差也不是很大,存在轻微的非独立性,但是影响不大,不会太影响回归结果的准确性。
②残差正态的判别:
上图中,黑色曲线为正态曲线,而黄色柱子的轮廓远远高于正态曲线,意味着本次模型的残差不服从正态分布。
出现这种情况的主要原因是模型拟合度R方不高。自变量只能解释因变量变异的11.4%,解决这个办法的问题是还要再多加入几个自变量,提升模型的拟合度,那么残差就会接近正态分布。至于再加什么样的自变量,还需要大家根据自己的专业知识考察,加入一些极有可能会影响“心率”变化的自变量。
③自变量不存在多重共线性的判别:
VIF值小于5,意味着变量之间不存在多重共线性,不会影响回归结果的准确性。
对于经济类数据,关联性本来就很强,这是这个行业决定的,因此有些经济类数据,VIF的临界点可以放宽到30多,都认为不存在多重共线性。
综合以上的线性回归模型的诊断可以得出:回归模型的结果基本准确。可以基于这个结论给出相关的对策建议。
最后,以上回归模型的结果可以Graphpad prism绘图进行可视化处理:
上图是通过Graphpad Prism软件绘制的,详细教程:
GraphPad Prism统计绘图教程
上图可以清晰看到,年龄对心率是负向影响,而BMI对心率是正向影响。其中,年龄散点有点散乱,有可能是导致R方不高的原因。
杏花开医学统计
精品课程推荐
杏花开医学统计
统计分析服务
统计分析服务
详 情
杏花开医学统计
统计交流群
杏花开医学统计