命令: | 统计 异常值检测 |
描述
离群值检测用于检测样本数据中的异常观测值。
必填项
变量:包含要分析的数据的变量的名称。
过滤器:(可选)过滤器,以便仅在统计分析中包括案例的选定子组。
离群值检测方法:
- Grubbs-左侧:仅检查最小值(*)(Grubbs,1969年)。
- Grubbs-右侧:仅检查最大值(*)(Grubbs,1969年)。
- Grubbs-双面:检查任一侧的最大值(*)(Grubbs,1969年)。
- 广义ESD测试:广义极端学生偏差(ESD)程序可以一步检测多个异常值(Rosner,1983)。
- 测试最大异常值:输入要检测的最大异常值。
- Tukey:检查两端是否有多个异常值,分为“ outside”或“ far out”值(Tukey,1977年)。
- 外部值定义为小于下四分位数减去四分位数间距的1.5倍,或大于上四分位数加上四分位数间距的1.5倍的值(“内围栏”)。
- 远离值定义为小于下四分位值减去四分位间距的3倍,或大于上四分位值加上四分位间距的3倍(“外部围栏”)的值。
(*)单面Grubbs的测试比双面测试更敏感。
选件
- Grubbs和ESD测试的Alpha等级:选择Alpha等级(范围从0.10到0.001),仅适用于Grubbs的测试和广义ESD测试。使用更大的alpha级别,测试将更加敏感,异常值将被更快地检测到;但是,这可能会导致假阳性结果。
- 对数转换:异常值检测方法假设数据遵循近似正态分布(请参阅下一个选项)。有时,应在分析之前对数转换数据。请参阅对数转换。
本页上的示例使用Rosner(1983)的原始比例数据。因此,对数变换的执行方式与Rosner论文中的相同。
- 测试正态分布:请参阅正态分布测试。
结果
统计摘要
- 显示所选数据的摘要统计信息。请参阅摘要统计信息。
- 如果正态分布的测试报告“拒绝正态性”,则异常检测方法可能无效,因为它们假定数据遵循近似正态分布。也许应该在分析之前对数据进行对数转换。
在该示例中,对数转换数据。
疑似异常值
该程序列出了由不同过程标识的异常值。
Grubbs的测试只能用于检测一个单独的异常值。如果您怀疑有一个以上的异常值,则不应重复该步骤,而应使用通用ESD测试。
确定异常值后该怎么办
不要自动删除异常值。
- 仅在发现虚假结果的原因(例如前,后或分析错误)时才删除异常值。
当您得出前,后或分析错误是虚假结果的原因时,请注意,其他数据值中可能存在相同的错误。
- 检查数据的分布。对数转换后的样本数据可能更接近正态分布。使用和不使用对数转换来绘制数据图,例如使用Box-and-Whisker图。
- 您可以考虑用下一个最高/最低(非异常值)数字替换异常值。
- 保留异常值,但使用不假定数据为正态分布的健壮或非参数统计方法。
- 进行统计分析并报告有或没有可疑异常值的结论。
在所有情况下,请报告异常值以及您如何处理它们。