命令: | 统计 回归 回归 |
描述
回归分析是一种统计方法,用于描述两个变量之间的关系并根据另一个变量预测一个变量(如果您知道一个变量,那么您能预测第二个变量的程度如何?)。
对于相关性,两个变量需要具有正态分布,而这并不是回归分析的必要条件。变量X不必是具有正态分布的随机样本(X的值可以由实验者选择)。但是,Y的可变性在X的每个级别上都应该相同。
必填项
当您在菜单中选择“回归”时,屏幕上将显示以下框:
变数
- 变量Y和变量X:选择因变量和自变量Y和X。
- 权重:可选地选择一个变量,该变量包含应赋予每个观察值的相对权重(用于加权最小二乘回归)。为自动加权回归程序选择虚拟变量“ *** AutoWeight 1 / SD ^ 2 ***”,以校正异方差(Neter等,1996)。该虚拟变量在“权重”下拉列表中显示为第一项。
- 过滤器:您也可以输入数据过滤器,以便仅在统计分析中包括案例的选定子组。
回归方程
默认情况下,选择在方程中包括常数。建议使用此选项,这将导致普通的最小二乘回归。当需要通过原点进行回归时(方程中没有常数a),可以取消选中此选项(Eisenhauer,2003年给出了适合的示例)。
MedCalc提供5种不同的回归方程式供您选择:
ÿ | = | a + bx | 直线 |
ÿ | = | a + b log(x) | 对数曲线 |
对数(y) | = | a + bx | 指数曲线 |
对数(y) | = | a + b log(x) | 几何曲线 |
ÿ | = | a + bx + cx 2 | 二次回归(抛物线) |
其中x代表自变量,y代表因变量。通过程序使用最小二乘法来计算系数a,b和c。
选件
- 子组:允许选择包含代码的分类变量,以识别不同的子组。将针对所有情况和每个子组执行回归分析。
- 残差:您可以选择残差的正态分布检验。
结果
以下统计信息将显示在结果窗口中:
样本量:数据对数n
确定系数R 2:这是回归模型解释的因变量变化的比例,并且是模型拟合优度的度量。取值范围是0到1,计算方法如下:
其中,Y是因变量的观察值,是观察值的平均值,Y est是因变量的预测值(使用回归方程计算预测值)。
注意:在通过原点进行回归的情况下,MedCalc不会报告确定系数,因为它无法很好地解释通过原点模型进行的回归(请参见Eisenhauer,2003年)。
残差标准差:残差的标准差(残差=观测值与预测值之间的差)。计算公式如下:
残留的标准偏差有时称为估计的标准误(Spiegel,1961)。
回归曲线的方程式:选择的方程式,其中包含a和b的计算值(对于抛物线,则为第三系数c)。例如Y = a + b X
接下来,给出截距(a)和斜率(b)的标准误差,然后给出t值和P值,以假设这些系数等于0。如果P值低(例如小于0.05),则可以得出系数不同于0的结论。
请注意,将回归方程式用于预测时,只能将其应用于实际观测值范围内的值。例如,当您为小学生计算身高和体重的回归方程式时,该方程式不适用于成人。
方差分析:方差分析表将因变量的总变化分为两个部分,一个可以归因于回归模型(标记为Regression),另一个不能归因于(标记为Residual)。如果F检验的显着性水平较小(小于0.05),则可以拒绝不存在(线性)关系的假设。
回归线的比较
在回归对话框中选择一个子组后,MedCalc将自动比较在不同子组中获得的回归方程的斜率和截距。
这种比较在以下情况下执行
- 有2个子组
- 没有重量变量
- 等式中包含一个常数
然后,结果窗口包括下表:
根据Armitage等人(2002)进行计算。
首先,用标准误差,t统计量,自由度和相关的P值报告斜率之间的差异。如果P不小于0.05,则斜率没有显着差异并且回归线是平行的。如果P小于0.05,则回归线不平行,并且下面截距的比较无效。
接下来,计算公共斜率,该斜率用于计算截距之间的调整差。
通过标准误差,t统计量,自由度和关联的P值报告截距之间的调整后差异。如果P小于0.05,则两个截距之间存在显着差异。如果P不小于0.05,则两条回归线无法区分。
使用ANCOVA比较回归线
当子组超过2个时,可以使用ANCOVA比较坡度和截距。
在ANCOVA模型中,您首先选择因变量,然后选择自变量作为协变量。对于因子,选择分组变量。
在ANCOVA的结果中,在“回归斜率的同质性”下方,您将找到一个P值,该值是比较回归斜率的显着性水平。如果此P值不小于0.05,则回归线平行。
接下来,在“成对比较”下方,找到截距之间差异的P值。
残差分析
线性回归分析假设残差(观测值与估计值之间的差)服从正态分布。可以通过正式测试或通过图形方法来评估此假设。
当样本量较小时,不同的正态分布正式测试可能没有足够的能力来检测与正态分布的偏差。另一方面,当样本量较大时,由于中心极限定理,正态分布的要求不太严格。
因此,通常优选使用直方图,盒须图或正态图在视觉上评估残差分布的对称性和峰值。
为此,请在结果窗口中单击“保存残差”超链接。这会将残值保存为电子表格中的新变量。然后,您可以在不同的分布图中使用此新变量。
结果介绍
如果分析表明两个变量之间的关系太弱而无法提供实际帮助,那么引用拟合线或曲线的方程式将毫无用处。如果给出方程,则还报告斜率的标准误差以及相应的P值。还应报告残留标准偏差(Altman,1980年)。回归系数的小数位数应与原始数据的精度相对应。
适当时,随附的散点图应包括拟合的回归线。此数字还可以包括95%的置信区间或95%的预测区间(可以提供更多信息),或同时包含这两者。图例必须清楚地标识所表示的间隔。