SAS中文论坛
标题:
SAS多元分析之聚类(2)–proc fastclus
[打印本页]
作者:
shiyiming
时间:
2012-1-8 13:14
标题:
SAS多元分析之聚类(2)–proc fastclus
From hssnow's blog on hssnow.name
本文主要对SAS做聚类分析的proc fastclus步的应用做一个简单的摘录,相关的理论知识细节,请参见SAS help文档及其他统计学相关文献等。 1.简介 proc fastclus为动态聚类(又称快速聚类),以迭代思想为理论基础,先对样本观测粗略分类,然后按某种最优准则逐步修改分类至最优为止,其适用于观测量大的数据。 步骤为: 选择若干观测为初始“凝聚点”。(注:凝聚点必须是完整观测,即该观测的各个变量值不能有缺失存在。) 1) 系统顺序选取 2) 系统随机选取 3) 指定初始凝聚点 根据初始“凝聚点”进行初始分类。 1) 按批初始分类 2) 逐个初始分类 对分类进行逐步修改优化。 1) 按批修改法 2) 逐个修改法 确定最优分类。 2.proc fastclus 常用语法格式: PROC FASTCLUS MAXCLUSTERS=n | RADIUS=t ; VAR variables ; ID variables ; 必须至少定义maxclusters=或radius=中的一个。 常用选项及语句说明: data= 指定聚类过程的输入数据集,该数据集必须是观测样本(坐标数据)。 maxclusters=k 指定所允许的最大分类个数(最大凝聚点个数),缺省时假定为100。 radius=r 指定选取新凝聚点的最小距离准则,缺省是假定为0。 初始凝聚点系统顺序选取时,总是将第一个完整的观测选取为第一个凝聚点,再顺序选取需满足下面2个条件的完整观测为接下来的凝聚点: 1.凝聚点的个数未达到“maxclusters=”指定值; 2.与所有已有凝聚点间的距离均大于“radius=”指定值 直到不满足条件是为止。 replace=full|part|none|random 控制初始凝聚点选取的替换检验。 上述初始凝聚点系统顺序选取中: [...]
欢迎光临 SAS中文论坛 (http://www.mysas.net/forum/)
Powered by Discuz! X3.2