SAS中文论坛

 找回密码
 立即注册

扫一扫,访问微社区

查看: 1945|回复: 0
打印 上一主题 下一主题

Decision Stump及其SAS的应用

[复制链接]

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
楼主
 楼主| 发表于 2012-5-19 15:27:06 | 只看该作者

Decision Stump及其SAS的应用

From Wensui's blog on Sina

Decision
Stump是一种极其简单但又十分有效的机器学习算法。它在机理上与决策树算法十分接近,但在结构上却简单许多,形状上像只有两个分支的树丫。
<div><br /></DIV>
<div>尽管相对简单,<span STYLE="line-height: 21px;">Decision
Stump却被成功地运用到数据挖掘的多个方面。首先,作为一个弱分类模型(</SPAN><span STYLE="font-family: Calibri, sans-serif; font-size: 11pt; line-height: 115%;">weak
classifier</SPAN><span STYLE="line-height: 21px;">),</SPAN><span STYLE="line-height: 21px;">Decision Stump是一个十分理想的组合算法(</SPAN><span STYLE="font-family: Calibri, sans-serif; font-size: 11pt; line-height: 115%;">ensemble</SPAN><span STYLE="line-height: 21px;">)的基础模型(</SPAN><span STYLE="font-family: Calibri, sans-serif; font-size: 11pt; line-height: 115%;">base
learner</SPAN><span STYLE="line-height: 21px;">),常被用在</SPAN><span STYLE="font-family: Calibri, sans-serif; font-size: 11pt; line-height: 115%;">bagging或是</SPAN><span STYLE="font-family: Calibri, sans-serif; font-size: 11pt; line-height: 115%;">boosting等</SPAN><span STYLE="line-height: 21px;">组合算法上。被单独使用的时候,</SPAN><span STYLE="line-height: 21px;">Decision
Stump也可以用在</SPAN><span STYLE="line-height: 21px;">数据挖掘的变量筛选上,或是用来搜寻连续变量上具有预测意义的节点。下面,我将通过一个简单的例子,来展示</SPAN><span STYLE="line-height: 21px;">Decision
Stump在</SPAN><span STYLE="line-height: 21px;">数据挖掘上的一个小应用及其在</SPAN>SAS上的实现方法。</DIV>
<div><br /></DIV>
<div>首先,我通过模拟产生一组数据,一个二进制因变量和三个连续的自变量。在<span STYLE="line-height: 21px;">自变量中,</SPAN><span STYLE="font-family: Calibri, sans-serif; font-size: 11pt; line-height: 115%;">X1与</SPAN><span STYLE="line-height: 21px;">因变量相关度最高,而</SPAN><span STYLE="line-height: 21px;">具有预测意义的节点为5;</SPAN><span STYLE="font-family: Calibri, sans-serif; font-size: 11pt; line-height: 115%;">X2与</SPAN><span STYLE="line-height: 21px;">因变量相关度次之,但</SPAN><span STYLE="line-height: 21px;">有两个向关节点,分别是1.5和7.5;</SPAN><span STYLE="font-family: Calibri, sans-serif; font-size: 11pt; line-height: 115%;">X3则与</SPAN><span STYLE="line-height: 21px;">因变量无任何相关度。</SPAN></DIV>
<div><span STYLE="line-height: 21px;"><br /></SPAN></DIV>
<div><a href="http://blog.photo.sina.com.cn/showpic.html#url=http://s5.sinaimg.cn/orignal/a28fc28agc05cb5044c14" TARGET="_blank"><img SRC="http://s5.sinaimg.cn/middle/a28fc28agc05cb5044c14&amp;690" NAME="image_operate_91351337405232352" /></A><br />
<br /></DIV>
<div>接下来,我会使用<span STYLE="line-height: 21px;">Decision
Stump对以上数据进行学习,目的在于计算各</SPAN><span STYLE="line-height: 21px;">自变量与</SPAN><span STYLE="line-height: 21px;">因变量的</SPAN><span STYLE="line-height: 21px;">相关度,并且找出变量中</SPAN><span STYLE="line-height: 21px;">具有预测意义的节点。</SPAN></DIV>
<div><span STYLE="line-height: 21px;"><br /></SPAN></DIV>
<div><a href="http://blog.photo.sina.com.cn/showpic.html#url=http://s8.sinaimg.cn/orignal/a28fc28ag79a2e08e49b7" TARGET="_blank"><img SRC="http://s8.sinaimg.cn/middle/a28fc28ag79a2e08e49b7&amp;690" NAME="image_operate_93401337405284650" /></A><br />
<br /></DIV>
<div>最后是<span STYLE="line-height: 21px;">Decision
Stump对</SPAN><span STYLE="line-height: 21px;">数据学习后的结果。</SPAN></DIV>
<div><span STYLE="line-height: 21px;"><br /></SPAN></DIV>
<div><a href="http://blog.photo.sina.com.cn/showpic.html#url=http://s5.sinaimg.cn/orignal/a28fc28agc05ccbd2a1a4" TARGET="_blank"><img SRC="http://s5.sinaimg.cn/middle/a28fc28agc05ccbd2a1a4&amp;690" NAME="image_operate_64451337405285098" /></A><br />
<br /></DIV>
<div>从上表<span STYLE="line-height: 21px;">可以看出,根据与因</SPAN><span STYLE="line-height: 21px;">变量的关联度,</SPAN><span STYLE="line-height: 21px;">Decision Stump对三个</SPAN><span STYLE="line-height: 21px;">自变量做出了正确的排序。而且,搜寻出来的节点与模拟的</SPAN><span STYLE="line-height: 21px;">节点极为相近。对于</SPAN><span STYLE="font-family: Calibri, sans-serif; font-size: 15px; line-height: 17px;">X1,</SPAN><span STYLE="line-height: 21px;">模拟</SPAN><span STYLE="line-height: 21px;">节点为5,而</SPAN><span STYLE="line-height: 21px;">搜寻</SPAN><span STYLE="line-height: 21px;">节点是4.97。</SPAN><span STYLE="line-height: 21px;">对于</SPAN><span STYLE="font-family: Calibri, sans-serif; line-height: 17px; font-size: 15px;">X2,其中的一个</SPAN><span STYLE="line-height: 21px;">模拟</SPAN><span STYLE="line-height: 21px;">节点为7.5,而</SPAN><span STYLE="line-height: 21px;">搜寻</SPAN><span STYLE="line-height: 21px;">节点是7.46。&nbsp;</SPAN></DIV>
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|SAS中文论坛  

GMT+8, 2025-5-6 18:35 , Processed in 0.088669 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表