SAS中文论坛
标题:
稳健性问题
[打印本页]
作者:
shiyiming
时间:
2013-6-11 14:04
标题:
稳健性问题
描述性统计中一般用于描述数据整体状况的指标,包括集中性、离散性的统计量,对应于稳健性问题中,这两个指标为位置统计量和尺度统计量。
一般来说,当数据显严格正态分布时,报告均值和标准差基本就可以全面的描述数据了,然而如果数据峰度或偏度有严重问题,那么这两个统计量的局限就显而易见了,一般建议报告,位置统计量:中位数或M估计量等;尺度统计量:中位绝对离差、双权中位方差等。
另外帮助分析人员更好的了解数据(存在大量异常值或严重偏态的情况)的方法还有,稳健统计量,例如trimmed与winsorized的方法。
proc univariate data=data_anl.performance
trimmed=.1 winsorized=.1 robustscale;
var gcharacteristic;
id id;
run;
*trimmed:截掉尾端10%的观测值;
*winsorized: 截掉尾端不同比例(10%)的观测值,使用其最近的观测值替代;
*robustscale:输出尺度(scale)的稳健估计;
[img:2g9s9628]http://994.edu.pinggu.com/forum/201305/27/173727sagqkpdaeeksp29a.png[/img:2g9s9628]
推论统计中,稳健模型的常用的方法有稳健方差、回归等模型,广义线性模型(目前不够成熟)。
下面看一下SAS常用的稳健估计方法
从下面的4种估计方法中,可以很容易看出这些方法都存在效率问题。所以经验认为,对一组数据的异常(包括不同程度的异常值,或不同程度的偏态),如果分析人员有足够的能力处理的话,尽量使用传统方法估计,例如OLS,否则就直接使用稳健方法。
/* breakdown_point influence_function relative_efficiency
m 0 bounded 95%
mm 0.5 bounded 95%
s 0.5 bounded 33%
lts 0.5 bounded 8%
使用条件:
1)m没有考虑杠杆效应,但对于厚尾分布的误差、异方差、y异常值具有稳健性。
2)lts、s效率太低,建立联合使用;
3)mm:推荐使用。参见SAS9.3手册*/
proc robustreg data=data_anl.performance method=mm;
model gcharacteristic=jaim jhonour jpromotion;
run;
* robustreg的主要过程,method=mm指定的方法;
对于模型评价的方法,一般建议参考鲁索1990的建议;
模拟一份数据产生不同比例的异常观测值
data a;
do i=1 to 100;
x=rannor(123);
e=rannor(123);
*y=5+3*x+0.3*e;
if i>80 then y=3+e;
else y=5+3*x+0.3*e;
output;
end;
run;
将模型残差保存下来,绘制矩阵散点图。可以看出四种稳健估计的残差较一致,但OLS估计和其他方法相比就出现的较大的不一致。以上是存在20%的异常信息。
[img:2g9s9628]http://994.edu.pinggu.com/forum/201305/27/173728yzmr6qzksqcvd5fr.png[/img:2g9s9628]
转自:http://bbs.pinggu.org/forum.php?mod=viewthread&tid=2441788&ctid=1157
欢迎光临 SAS中文论坛 (http://www.mysas.net/forum/)
Powered by Discuz! X3.2