命令: | 统计 回归 Logistic回归 |
描述
Logistic回归是一种用于分析数据集的统计方法,其中有一个或多个确定结果的自变量。用二分变量(只有两个可能的结果)来衡量结果。
在逻辑回归中,因变量是二进制或二分法的,即,它仅包含编码为1(真,成功,怀孕等)或0(假,失败,未怀孕等)的数据。
Logistic回归的目标是找到最佳拟合(在生物学上仍是合理的)模型,以描述感兴趣的二分特征(因变量=反应或结果变量)与一组独立(预测变量或解释变量)之间的关系。逻辑回归生成公式的系数(及其标准误差和显着性水平),以预测感兴趣特征存在的概率的对数变换:
其中p是感兴趣特征存在的概率。logit转换定义为记录的赔率:
和
在逻辑回归中,估计不是选择使平方误差之和最小的参数(例如在普通回归中),而是选择使观察样本值的可能性最大化的参数。
如何输入数据
在以下示例中,有两个预测变量:AGE和SMOKING。因变量或响应变量是OUTCOME。因变量OUTCOME编码为0(负)和1(正)。
必填项
因变量
您要预测其值的变量。因变量必须是二进制或二分法的,并且只应包含编码为0或1的数据。如果数据编码不同,则可以使用“定义状态”工具重新编码数据。
自变量
选择您希望影响因变量的其他变量。
过滤
(可选)输入数据过滤器,以便仅在分析中包括案例的选定子组。
选件
- 方法:选择将自变量输入模型的方式。
- 输入:只需一步即可输入模型中的所有变量,而无需检查
- 转发:依次输入重要变量
- 向后:首先将所有变量输入模型,然后依次删除不重要的变量
- 逐步:依次输入重要变量;在模型中输入变量后,检查并可能删除变得不重要的变量。
- 如果P <
如果变量的关联显着性水平小于此P值,则将其输入模型。
- 如果P>,则删除变量
如果变量的关联显着性水平大于此P值,则将其从模型中删除。
- 分类表截止值:介于0和1之间的值,将用作分类表的截止值。分类表是评估逻辑回归模型的一种方法。在此表中,对依存结果的观察值与预测值(在选定的临界值处)进行交叉分类。
- 分类:单击此按钮以标识名义分类变量。
图形
仅当只有一个自变量时,才可以选择显示逻辑对数曲线的图形。
结果
单击确定按钮后,将显示以下结果:
样本量以及阳性和阴性病例
首先,程序给出样本量以及结果为阴性(Y = 0)和阳性(Y = 1)的病例数和比例。
整体模型拟合
的空模型-2数似然由-2 * LN(L给出0)其中,L 0是获得观测如果自变量对结果没有影响的可能性。
的完整的模型-2数似然由-2 * LN(L),其中L是获得与在模型中并入所有自变量的观测的可能性给出。
两者的差异产生了Chi-Squared统计量,该统计量用于衡量自变量对结果或因变量的影响程度。
如果总体模型拟合统计量的P值小于常规的0.05,则有证据表明至少一个自变量有助于预测结果。
Cox&Snell R 2和Nagelkerke R 2是拟合度的其他优点,被称为伪R方。请注意,Cox&Snell的伪R平方的最大值不是1。NagelkerkeR 2调整Cox&Snell的值,以便可能的值范围扩大到1。
回归系数
逻辑回归系数是回归方程的系数b 0,b 1,b 2,… b k:
可以从回归模型中删除回归系数与0并无显着差异(P> 0.05)的自变量(按功能键F7以重复逻辑回归程序)。如果P <0.05,则该变量对结果变量的预测有显着贡献。
逻辑回归系数显示出预测记录的几率具有变化(当b i > 0时增加,当b i <0时减少),这些变化具有自变量中一个单位变化的关注特征。
当自变量X a和X b是二分变量(例如,吸烟,性别)时,可以通过比较它们的回归系数b a和b b来简单比较这些变量对因变量的影响。
Wald统计量是回归系数除以其标准误差平方:(b / SE)2。
CI 为95%的赔率
通过按照上面给出的回归方程两边的指数,方程可以被重写为:
显然,当变量X i增加1个单位,而所有其他因子保持不变时,则赔率将增加一个因子e b i。
这个系数E b我是比值比(OR)为独立变量X我和它赋予了相对量,通过该结果增加(或大于1)或降低(或小于1)时的值的几率自变量增加1个单位。
例如,变量SMOKING编码为0(=禁止吸烟)和1(=吸烟),该变量的优势比为2.64。这意味着在该模型中,吸烟者获得阳性结果的几率是不吸烟者的2.64倍。
拟合逻辑回归方程的解释
逻辑回归方程为:
logit(p)= −8.986 + 0.251 x年龄+ 0.972 x吸烟
因此,对于40岁的吸烟者,logit(p)等于2.026。Logit(p)可以通过以下公式反转换为p:
或者,您可以使用Logit表或ALOGIT函数计算器。对于logit(p)= 2.026,结果为正的概率p等于0.88。
Hosmer-Lemeshow测试
Hosmer-Lemeshow检验是用于逻辑回归模型拟合优度的统计检验。数据按估计风险的升序分为大约十组。计算每组中观察到的和预期的病例数,并按以下方式计算卡方统计量:
与ø克,È克和Ñ克的观察到的事件,预期事件和观察的数目为克个风险等分基,和G ^基团的数目。检验统计量遵循具有G-2自由度的卡方分布。
卡方值大(p值<0.05小)表明拟合度差,卡方值小(p值较大,接近1)表明对数回归模型拟合良好。
Hosmer和Lemeshow测试的“权变表”表显示了测试的详细信息,以及每组中观察到的预期病例数。
分类表
分类表是评估逻辑回归模型的预测准确性的另一种方法。在此表中,对依存结果的观察值和预测值(在用户定义的临界值,例如p = 0.50)进行交叉分类。在我们的示例中,模型可以正确预测70%的案例。
ROC曲线分析
评估逻辑回归模型的另一种方法是利用ROC曲线分析。在此分析中,通过ROC曲线下的面积(AUC)来量化模型的预测值在正和负情况之间进行区分的能力。的AUC,有时被称为C-统计量(或一致性指数),是从0.5改变(区分能力不优于机会)的值到1.0(完美辨别能力)。
要对预测的概率执行完整的ROC曲线分析,您可以保存预测的概率,然后在ROC曲线分析中使用此新变量。然后,逻辑回归中使用的因变量将成为ROC曲线分析对话框中的分类变量。
倾向得分
倾向得分是逻辑回归模型的预测概率。要将倾向得分保存在数据表中,请在结果窗口中单击链接“保存预测的概率”。
样本量注意事项
用于逻辑回归的样本量计算是一个复杂的问题,但是基于Peduzzi等人的工作。(1996年)可以建议以下指南,以将最少病例纳入您的研究。
令p为总体中阴性或阳性病例中最小的比例,k为协变量数(独立变量的数量),则要包含的最小病例数为:
N = 10 k / p
例如:您有3个协变量要包含在模型中,阳性病例在总体中的比例为0.20(20%)。所需的最少案件数是
N = 10 x 3 / 0.20 = 150
如果结果数小于100,则应按照Long(1997)的建议将其增加到100。
图形
当只有一个自变量时,MedCalc可以绘制逻辑回归曲线:
将创建以下图形:
参考文献
- Hosmer DW Jr,Lemeshow S,Sturdivant RX(2013)Applied Logistic Regression。第三版。新泽西州:约翰·威利父子。
- Long JS(1997)分类和有限因变量的回归模型。加利福尼亚州千橡市:Sage出版物。
- Pampel FC(2000)Logistic回归:入门。Sage大学论文系列在社会科学中的定量应用,07-132。加利福尼亚州千橡市:Sage出版物。
- Peduzzi P,Concato J,Kemper E,Holford TR,Feinstein AR(1996)在逻辑回归分析中每个变量的事件数量的模拟研究。临床流行病学杂志49:1373-1379。