SAS中文论坛

标题: 稳健性问题 [打印本页]

作者: shiyiming    时间: 2013-6-11 14:04
标题: 稳健性问题
描述性统计中一般用于描述数据整体状况的指标,包括集中性、离散性的统计量,对应于稳健性问题中,这两个指标为位置统计量和尺度统计量。
一般来说,当数据显严格正态分布时,报告均值和标准差基本就可以全面的描述数据了,然而如果数据峰度或偏度有严重问题,那么这两个统计量的局限就显而易见了,一般建议报告,位置统计量:中位数或M估计量等;尺度统计量:中位绝对离差、双权中位方差等。
另外帮助分析人员更好的了解数据(存在大量异常值或严重偏态的情况)的方法还有,稳健统计量,例如trimmed与winsorized的方法。
proc univariate data=data_anl.performance
                    trimmed=.1 winsorized=.1 robustscale;
   var gcharacteristic;
   id id;
run;
*trimmed:截掉尾端10%的观测值;
*winsorized: 截掉尾端不同比例(10%)的观测值,使用其最近的观测值替代;
*robustscale:输出尺度(scale)的稳健估计;
[img:2g9s9628]http://994.edu.pinggu.com/forum/201305/27/173727sagqkpdaeeksp29a.png[/img:2g9s9628]
推论统计中,稳健模型的常用的方法有稳健方差、回归等模型,广义线性模型(目前不够成熟)。
下面看一下SAS常用的稳健估计方法
从下面的4种估计方法中,可以很容易看出这些方法都存在效率问题。所以经验认为,对一组数据的异常(包括不同程度的异常值,或不同程度的偏态),如果分析人员有足够的能力处理的话,尽量使用传统方法估计,例如OLS,否则就直接使用稳健方法。
/*   breakdown_point   influence_function   relative_efficiency   
m          0                bounded               95%  
mm         0.5              bounded               95%  
s          0.5              bounded               33%  
lts        0.5              bounded               8%  
使用条件:
1)m没有考虑杠杆效应,但对于厚尾分布的误差、异方差、y异常值具有稳健性。
2)lts、s效率太低,建立联合使用;
3)mm:推荐使用。参见SAS9.3手册*/
proc robustreg data=data_anl.performance method=mm;
     model gcharacteristic=jaim jhonour jpromotion;
run;
* robustreg的主要过程,method=mm指定的方法;
对于模型评价的方法,一般建议参考鲁索1990的建议;
模拟一份数据产生不同比例的异常观测值
data a;
   do i=1 to 100;
      x=rannor(123);
      e=rannor(123);
            *y=5+3*x+0.3*e;
            if i>80 then y=3+e;
                 else y=5+3*x+0.3*e;
         output;
   end;
run;
将模型残差保存下来,绘制矩阵散点图。可以看出四种稳健估计的残差较一致,但OLS估计和其他方法相比就出现的较大的不一致。以上是存在20%的异常信息。
[img:2g9s9628]http://994.edu.pinggu.com/forum/201305/27/173728yzmr6qzksqcvd5fr.png[/img:2g9s9628]

转自:http://bbs.pinggu.org/forum.php?mod=viewthread&tid=2441788&ctid=1157




欢迎光临 SAS中文论坛 (http://www.mysas.net/forum/) Powered by Discuz! X3.2