MedCalc 逻辑回归

1 2 月, 2021
5:41 下午

命令：	统计回归 Logistic回归

描述

Logistic回归是一种用于分析数据集的统计方法，其中有一个或多个确定结果的自变量。用二分变量（只有两个可能的结果）来衡量结果。

在逻辑回归中，因变量是二进制或二分法的，即，它仅包含编码为1（真，成功，怀孕等）或0（假，失败，未怀孕等）的数据。

Logistic回归的目标是找到最佳拟合（在生物学上仍是合理的）模型，以描述感兴趣的二分特征（因变量=反应或结果变量）与一组独立（预测变量或解释变量）之间的关系。逻辑回归生成公式的系数（及其标准误差和显着性水平），以预测感兴趣特征存在的概率的对数变换：

其中p是感兴趣特征存在的概率。logit转换定义为记录的赔率：

和

在逻辑回归中，估计不是选择使平方误差之和最小的参数（例如在普通回归中），而是选择使观察样本值的可能性最大化的参数。

如何输入数据

在以下示例中，有两个预测变量：AGE和SMOKING。因变量或响应变量是OUTCOME。因变量OUTCOME编码为0（负）和1（正）。

必填项

因变量

您要预测其值的变量。因变量必须是二进制或二分法的，并且只应包含编码为0或1的数据。如果数据编码不同，则可以使用“定义状态”工具重新编码数据。

自变量

选择您希望影响因变量的其他变量。

过滤

（可选）输入数据过滤器，以便仅在分析中包括案例的选定子组。

选件

方法：选择将自变量输入模型的方式。
- 输入：只需一步即可输入模型中的所有变量，而无需检查
- 转发：依次输入重要变量
- 向后：首先将所有变量输入模型，然后依次删除不重要的变量
- 逐步：依次输入重要变量；在模型中输入变量后，检查并可能删除变得不重要的变量。
如果P <
如果变量的关联显着性水平小于此P值，则将其输入模型。
如果P>，则删除变量
如果变量的关联显着性水平大于此P值，则将其从模型中删除。
分类表截止值：介于0和1之间的值，将用作分类表的截止值。分类表是评估逻辑回归模型的一种方法。在此表中，对依存结果的观察值与预测值（在选定的临界值处）进行交叉分类。
分类：单击此按钮以标识名义分类变量。

图形

仅当只有一个自变量时，才可以选择显示逻辑对数曲线的图形。

结果

单击确定按钮后，将显示以下结果：

样本量以及阳性和阴性病例

首先，程序给出样本量以及结果为阴性（Y = 0）和阳性（Y = 1）的病例数和比例。

整体模型拟合

的空模型-2数似然由-2 * LN（L给出₀）其中，L ₀是获得观测如果自变量对结果没有影响的可能性。

的完整的模型-2数似然由-2 * LN（L），其中L是获得与在模型中并入所有自变量的观测的可能性给出。

两者的差异产生了Chi-Squared统计量，该统计量用于衡量自变量对结果或因变量的影响程度。

如果总体模型拟合统计量的P值小于常规的0.05，则有证据表明至少一个自变量有助于预测结果。

Cox＆Snell R ²和Nagelkerke R ²是拟合度的其他优点，被称为伪R方。请注意，Cox＆Snell的伪R平方的最大值不是1。NagelkerkeR ²调整Cox＆Snell的值，以便可能的值范围扩大到1。

回归系数

逻辑回归系数是回归方程的系数b ₀，b ₁，b ₂，… b _k：

可以从回归模型中删除回归系数与0并无显着差异（P> 0.05）的自变量（按功能键F7以重复逻辑回归程序）。如果P <0.05，则该变量对结果变量的预测有显着贡献。

逻辑回归系数显示出预测记录的几率具有变化（当b _i > 0时增加，当b _i <0时减少），这些变化具有自变量中一个单位变化的关注特征。

当自变量X _a和X _b是二分变量（例如，吸烟，性别）时，可以通过比较它们的回归系数b _a和b _b来简单比较这些变量对因变量的影响。

Wald统计量是回归系数除以其标准误差平方：（b / SE）²。

CI 为95％的赔率

通过按照上面给出的回归方程两边的指数，方程可以被重写为：

显然，当变量X _i增加1个单位，而所有其他因子保持不变时，则赔率将增加一个因子e ^b _i。

这个系数E ^b_我是比值比（OR）为独立变量X_我和它赋予了相对量，通过该结果增加（或大于1）或降低（或小于1）时的值的几率自变量增加1个单位。

例如，变量SMOKING编码为0（=禁止吸烟）和1（=吸烟），该变量的优势比为2.64。这意味着在该模型中，吸烟者获得阳性结果的几率是不吸烟者的2.64倍。

拟合逻辑回归方程的解释

逻辑回归方程为：

logit（p）= −8.986 + 0.251 x年龄+ 0.972 x吸烟

因此，对于40岁的吸烟者，logit（p）等于2.026。Logit（p）可以通过以下公式反转换为p：

或者，您可以使用Logit表或ALOGIT函数计算器。对于logit（p）= 2.026，结果为正的概率p等于0.88。

Hosmer-Lemeshow测试

Hosmer-Lemeshow检验是用于逻辑回归模型拟合优度的统计检验。数据按估计风险的升序分为大约十组。计算每组中观察到的和预期的病例数，并按以下方式计算卡方统计量：

与ø_克，È_克和Ñ_克的观察到的事件，预期事件和观察的数目为克^个风险等分基，和G ^基团的数目。检验统计量遵循具有G-2自由度的卡方分布。

卡方值大（p值<0.05小）表明拟合度差，卡方值小（p值较大，接近1）表明对数回归模型拟合良好。

Hosmer和Lemeshow测试的“权变表”表显示了测试的详细信息，以及每组中观察到的预期病例数。

分类表

分类表是评估逻辑回归模型的预测准确性的另一种方法。在此表中，对依存结果的观察值和预测值（在用户定义的临界值，例如p = 0.50）进行交叉分类。在我们的示例中，模型可以正确预测70％的案例。

ROC曲线分析

评估逻辑回归模型的另一种方法是利用ROC曲线分析。在此分析中，通过ROC曲线下的面积（AUC）来量化模型的预测值在正和负情况之间进行区分的能力。的AUC，有时被称为C-统计量（或一致性指数），是从0.5改变（区分能力不优于机会）的值到1.0（完美辨别能力）。

要对预测的概率执行完整的ROC曲线分析，您可以保存预测的概率，然后在ROC曲线分析中使用此新变量。然后，逻辑回归中使用的因变量将成为ROC曲线分析对话框中的分类变量。

倾向得分

倾向得分是逻辑回归模型的预测概率。要将倾向得分保存在数据表中，请在结果窗口中单击链接“保存预测的概率”。

样本量注意事项

用于逻辑回归的样本量计算是一个复杂的问题，但是基于Peduzzi等人的工作。（1996年）可以建议以下指南，以将最少病例纳入您的研究。

令p为总体中阴性或阳性病例中最小的比例，k为协变量数（独立变量的数量），则要包含的最小病例数为：

N = 10 k / p

例如：您有3个协变量要包含在模型中，阳性病例在总体中的比例为0.20（20％）。所需的最少案件数是

N = 10 x 3 / 0.20 = 150

如果结果数小于100，则应按照Long（1997）的建议将其增加到100。

图形

当只有一个自变量时，MedCalc可以绘制逻辑回归曲线：

将创建以下图形：

参考文献

Hosmer DW Jr，Lemeshow S，Sturdivant RX（2013）Applied Logistic Regression。第三版。新泽西州：约翰·威利父子。
Long JS（1997）分类和有限因变量的回归模型。加利福尼亚州千橡市：Sage出版物。
Pampel FC（2000）Logistic回归：入门。Sage大学论文系列在社会科学中的定量应用，07-132。加利福尼亚州千橡市：Sage出版物。
Peduzzi P，Concato J，Kemper E，Holford TR，Feinstein AR（1996）在逻辑回归分析中每个变量的事件数量的模拟研究。临床流行病学杂志49：1373-1379。