MedCalc 异常值检测

命令: 统计
下一步选择异常值检测
描述

离群值检测用于检测样本数据中的异常观测值。

必填项

离群值检测对话框

变量:包含要分析的数据的变量的名称。

过滤器:(可选)过滤器,以便仅在统计分析中包括案例的选定子组。

离群值检测方法

  • Grubbs-左侧:仅检查最小值(*)(Grubbs,1969年)。
  • Grubbs-右侧:仅检查最大值(*)(Grubbs,1969年)。
  • Grubbs-双面:检查任一侧的最大值(*)(Grubbs,1969年)。
  • 广义ESD测试:广义极端学生偏差(ESD)程序可以一步检测多个异常值(Rosner,1983)。
    • 测试最大异常值:输入要检测的最大异常值。
  • Tukey:检查两端是否有多个异常值,分为“ outside”或“ far out”值(Tukey,1977年)。
    • 外部值定义为小于下四分位数减去四分位数间距的1.5倍,或大于上四分位数加上四分位数间距的1.5倍的值(“内围栏”)。
    • 远离值定义为小于下四分位值减去四分位间距的3倍,或大于上四分位值加上四分位间距的3倍(“外部围栏”)的值。

(*)单面Grubbs的测试比双面测试更敏感。

选件

  • Grubbs和ESD测试的Alpha等级:选择Alpha等级(范围从0.10到0.001),仅适用于Grubbs的测试和广义ESD测试。使用更大的alpha级别,测试将更加敏感,异常值将被更快地检测到;但是,这可能会导致假阳性结果。
  • 对数转换:异常值检测方法假设数据遵循近似正态分布(请参阅下一个选项)。有时,应在分析之前对数转换数据。请参阅对数转换 

    本页上的示例使用Rosner(1983)的原始比例数据。因此,对数变换的执行方式与Rosner论文中的相同。 

  • 测试正态分布:请参阅正态分布测试
结果

离群值检测-结果

统计摘要
  • 显示所选数据的摘要统计信息。请参阅摘要统计信息
  • 如果正态分布的测试报告“拒绝正态性”,则异常检测方法可能无效,因为它们假定数据遵循近似正态分布。也许应该在分析之前对数据进行对数转换。 

    在该示例中,对数转换数据。

疑似异常值

该程序列出了由不同过程标识的异常值。

Grubbs的测试只能用于检测一个单独的异常值。如果您怀疑有一个以上的异常值,则不应重复该步骤,而应使用通用ESD测试。

确定异常值后该怎么办

不要自动删除异常值

  • 仅在发现虚假结果的原因(例如前,后或分析错误)时才删除异常值。 

    当您得出前,后或分析错误是虚假结果的原因时,请注意,其他数据值中可能存在相同的错误。

  • 检查数据的分布。对数转换后的样本数据可能更接近正态分布。使用和不使用对数转换来绘制数据图,例如使用Box-and-Whisker图
  • 您可以考虑用下一个最高/最低(非异常值)数字替换异常值。
  • 保留异常值,但使用不假定数据为正态分布的健壮或非参数统计方法。
  • 进行统计分析并报告有或没有可疑异常值的结论。

在所有情况下,请报告异常值以及您如何处理它们。

文学
  • Grubbs FE(1969年),用于检测样本中异常观测值的程序。技术计量学11:1-21。
  • Rosner B(1983)广义ESD多离群程序的百分比。Technometrics 25:165-172。
  • Tukey JW(1977)探索性数据分析。马萨诸塞州雷丁:Addison-Wesley出版公司。 从亚马逊购买
Share on facebook
Facebook
Share on twitter
Twitter