MedCalc 逻辑回归

命令: 统计
下一步选择回归
下一步选择Logistic回归
描述

Logistic回归是一种用于分析数据集的统计方法,其中有一个或多个确定结果的自变量。用二分变量(只有两个可能的结果)来衡量结果。

在逻辑回归中,因变量是二进制或二分法的,即,它仅包含编码为1(真,成功,怀孕等)或0(假,失败,未怀孕等)的数据。

Logistic回归的目标是找到最佳拟合(在生物学上仍是合理的)模型,以描述感兴趣的二分特征(因变量=反应或结果变量)与一组独立(预测变量或解释变量)之间的关系。逻辑回归生成公式的系数(及其标准误差和显着性水平),以预测感兴趣特征存在的概率的对数变换

逻辑回归方程

其中p是感兴趣特征存在的概率。logit转换定义为记录的赔率:

赔率= p /(1-p)

Logit(p)= ln(p /(1-p))

在逻辑回归中,估计不是选择使平方误差之和最小的参数(例如在普通回归中),而是选择使观察样本值的可能性最大化的参数。

如何输入数据

在以下示例中,有两个预测变量:AGE和SMOKING。因变量或响应变量是OUTCOME。因变量OUTCOME编码为0(负)和1(正)。

如何输入数据进行逻辑回归

必填项

Logistic回归对话框

因变量

您要预测其值的变量。因变量必须是二进制或二分法的,并且只应包含编码为0或1的数据。如果数据编码不同,则可以使用“定义状态”工具重新编码数据。

自变量
选择您希望影响因变量的其他变量。
过滤

(可选)输入数据过滤器,以便仅在分析中包括案例的选定子组。

选件
  • 方法:选择将自变量输入模型的方式。 
    • 输入:只需一步即可输入模型中的所有变量,而无需检查
    • 转发:依次输入重要变量
    • 向后:首先将所有变量输入模型,然后依次删除不重要的变量
    • 逐步:依次输入重要变量;在模型中输入变量后,检查并可能删除变得不重要的变量。
  • 如果P < 

    如果变量的关联显着性水平小于此P值,则将其输入模型。 

  • 如果P>,则删除变量 

    如果变量的关联显着性水平大于此P值,则将其从模型中删除。 

  • 分类表截止值:介于0和1之间的值,将用作分类表的截止值。分类表是评估逻辑回归模型的一种方法。在此表中,对依存结果的观察值与预测值(在选定的临界值处)进行交叉分类。
  • 分类:单击此按钮以标识名义分类变量。
图形

仅当只有一个自变量时,才可以选择显示逻辑对数曲线的图形。

结果

单击确定按钮后,将显示以下结果:

逻辑回归的结果

样本量以及阳性和阴性病例

首先,程序给出样本量以及结果为阴性(Y = 0)和阳性(Y = 1)的病例数和比例。

整体模型拟合

空模型-2数似然由-2 * LN(L给出0)其中,L 0是获得观测如果自变量对结果没有影响的可能性。

完整的模型-2数似然由-2 * LN(L),其中L是获得与在模型中并入所有自变量的观测的可能性给出。

两者的差异产生了Chi-Squared统计量,该统计量用于衡量自变量对结果或因变量的影响程度。

如果总体模型拟合统计量的P值小于常规的0.05,则有证据表明至少一个自变量有助于预测结果。

Cox&Snell R 2和Nagelkerke R 2是拟合度的其他优点,被称为伪R方。请注意,Cox&Snell的伪R平方的最大值不是1。NagelkerkeR 2调整Cox&Snell的值,以便可能的值范围扩大到1。

回归系数

逻辑回归系数是回归方程的系数b 0,b 1,b 2,… b k

逻辑回归方程

可以从回归模型中删除回归系数与0并无显着差异(P> 0.05)的自变量(按功能键F7以重复逻辑回归程序)。如果P <0.05,则该变量对结果变量的预测有显着贡献。

逻辑回归系数显示出预测记录的几率具有变化(当b i > 0时增加,当b i <0时减少),这些变化具有自变量中一个单位变化的关注特征。

当自变量X a和X b是二分变量(例如,吸烟,性别)时,可以通过比较它们的回归系数b a和b b来简单比较这些变量对因变量的影响。

Wald统计量是回归系数除以其标准误差平方:(b / SE)2

CI 为95%的赔率

通过按照上面给出的回归方程两边的指数,方程可以被重写为:

逻辑回归方程

显然,当变量X i增加1个单位,而所有其他因子保持不变时,则赔率将增加一个因子e i

Logistic回归方程-赔率

这个系数E b是比值比(OR)为独立变量X和它赋予了相对量,通过该结果增加(或大于1)或降低(或小于1)时的值的几率自变量增加1个单位。

例如,变量SMOKING编码为0(=禁止吸烟)和1(=吸烟),该变量的优势比为2.64。这意味着在该模型中,吸烟者获得阳性结果的几率是不吸烟者的2.64倍。

拟合逻辑回归方程的解释

逻辑回归方程为:

logit(p)= −8.986 + 0.251 x年龄+ 0.972 x吸烟

因此,对于40岁的吸烟者,logit(p)等于2.026。Logit(p)可以通过以下公式反转换为p:

Logit(p)逆变换

或者,您可以使用Logit表ALOGIT函数计算器。对于logit(p)= 2.026,结果为正的概率p等于0.88。

Hosmer-Lemeshow测试

Hosmer-Lemeshow检验是用于逻辑回归模型拟合优度的统计检验。数据按估计风险的升序分为大约十组。计算每组中观察到的和预期的病例数,并按以下方式计算卡方统计量:

Hosmer&Lemeshow方程

øÈÑ的观察到的事件,预期事件和观察的数目为风险等分基,和G ^基团的数目。检验统计量遵循具有G-2自由度的卡方分布。

卡方值大(p值<0.05小)表明拟合度差,卡方值小(p值较大,接近1)表明对数回归模型拟合良好。

Hosmer和Lemeshow测试的权变表”表显示了测试的详细信息,以及每组中观察到的预期病例数。

分类表

分类表是评估逻辑回归模型的预测准确性的另一种方法。在此表中,对依存结果的观察值和预测值(在用户定义的临界值,例如p = 0.50)进行交叉分类。在我们的示例中,模型可以正确预测70%的案例。

ROC曲线分析

评估逻辑回归模型的另一种方法是利用ROC曲线分析。在此分析中,通过ROC曲线下的面积(AUC)来量化模型的预测值在正和负情况之间进行区分的能力。的AUC,有时被称为C-统计量(或一致性指数),是从0.5改变(区分能力不优于机会)的值到1.0(完美辨别能力)。

要对预测的概率执行完整的ROC曲线分析,您可以保存预测的概率,然后在ROC曲线分析中使用此新变量。然后,逻辑回归中使用的因变量将成为ROC曲线分析对话框中的分类变量。

倾向得分

倾向得分是逻辑回归模型的预测概率。要将倾向得分保存在数据表中,请在结果窗口中单击链接“保存预测的概率”。

样本量注意事项

用于逻辑回归的样本量计算是一个复杂的问题,但是基于Peduzzi等人的工作。(1996年)可以建议以下指南,以将最少病例纳入您的研究。

p为总体中阴性或阳性病例中最小的比例,k为协变量数(独立变量的数量),则要包含的最小病例数为:

N = 10 k / p

例如:您有3个协变量要包含在模型中,阳性病例在总体中的比例为0.20(20%)。所需的最少案件数是

N = 10 x 3 / 0.20 = 150

如果结果数小于100,则应按照Long(1997)的建议将其增加到100。

图形

当只有一个自变量时,MedCalc可以绘制逻辑回归曲线:

Logistic回归曲线对话框

将创建以下图形:

逻辑回归曲线

参考文献
  • Hosmer DW Jr,Lemeshow S,Sturdivant RX(2013)Applied Logistic Regression。第三版。新泽西州:约翰·威利父子。 从亚马逊购买
  • Long JS(1997)分类和有限因变量的回归模型。加利福尼亚州千橡市:Sage出版物。 从亚马逊购买
  • Pampel FC(2000)Logistic回归:入门。Sage大学论文系列在社会科学中的定量应用,07-132。加利福尼亚州千橡市:Sage出版物。 从亚马逊购买
  • Peduzzi P,Concato J,Kemper E,Holford TR,Feinstein AR(1996)在逻辑回归分析中每个变量的事件数量的模拟研究。临床流行病学杂志49:1373-1379。 考研

也可以看看

Facebook
Twitter