SAS中文论坛

标题: 重合数据的问题 [打印本页]

作者: shiyiming    时间: 2010-2-5 00:28
标题: 重合数据的问题
我有两个数据集a和b,数据格式大概为com date trade,我想比较一下两个数据集有多少交叉的部分。

我先把每个数据集中加了source,然后把两个数据集combine起来了
data ab; set a b; by com date; run;

组合的数据集形式大概如下:
com date            trade source
A    20060201       5        a
A    20060201       6        b
A    20070502       2        a
A    20070502       2        a
A    20070503       3        b
A    20080101       5        a
A    20080101       5        b
B    20070101       2        b
C    20060101       6        a
D     ...

我现在想知道:
1,每年中有多少com在数据a中,有多少com在数据b中,有多少com既在a中又在b中;(前面两个比较容易得到,这个交集怎么得到?有没有直接的函数?)
上面ABC三家公司的例子里面应该得到:
Year  a   b   both
2006  2   1   1
2007  1   2   1
2008  1   1   1

2,两个数据集中有多少重合的数据,比如:
A    20080101       5        a
A    20080101       5        b
这两个obs就是重合的数据,如何把这些重合的数据单独输出?
我考虑过按com date trade排序后用if first.trade ne last.trade; 输出,但是有一个问题,我的数据里面同一个source的也有可能有重复的数据,比如:
A    20070502       2        a
A    20070502       2        a
如何能保证只输出不同数据集的重复?

一团浆糊了,还请大牛们指教一二!
作者: shiyiming    时间: 2010-2-5 08:50
标题: Re: 重合数据的问题
[quote:1ktwv6t0]据里面同一个source的也有可能有重复的数据,比如:
A 20070502 2 a
A 20070502 2 a
[/quote:1ktwv6t0]
对于你来说重要吗?如果不重要可以先把重复的删除掉,然后再进行你所说的运算,应该对于实现你的要求就简单多了。
删除重复记录的方法可以用proc sort步中的nodup选项,如下例:
[code:1ktwv6t0]data raw;
        input com $ date $ trade source $;
        datalines;
A 20060201 5 a
A 20060201 6 b
A 20070502 2 a
A 20070502 2 a
A 20070503 3 b
A 20080101 5 a
A 20080101 5 b
B 20070101 2 b
C 20060101 6 a

;
run;

proc sort data=raw out=temp nodup;
by com date trade source;
run;
[/code:1ktwv6t0]
作者: shiyiming    时间: 2010-2-5 13:14
标题: Re: 重合数据的问题
这个重复数据也是有用的,可能是一天多次trade产生的,其实我主要想知道两个数据集有多大的差异。
作者: shiyiming    时间: 2010-2-5 17:39
标题: Re: 重合数据的问题
看来问题太复杂了?:(

那么只是把同一天内既有来自a的也有来自b的这样的数据输出呢?
作者: shiyiming    时间: 2010-2-6 00:40
标题: Re: 重合数据的问题
[code:2lvtqqig]data x;
input com $ date yymmdd8. trade source $;
year = year(date);
format date yymmdd10.;
cards;
A 20060201 5 a
A 20060201 6 b
A 20070502 2 a
A 20070502 2 a
A 20070503 3 b
A 20080101 5 a
A 20080101 5 b
B 20070101 2 b
C 20060101 6 a
C 20060101 6 b
;

proc sql;
        create table y1 as select year, source, count(distinct com) as inSource from x group by year, source;
        create table y2 as select year, count(com) as both from (select year, com from x group by year, com having count(distinct source) > 1) group by year;
quit;
proc transpose data = y1 out = y11(drop = _name_);
        by year; id source;
        var inSource;
run;
data y;
        merge y11 y2; by year;
        if missing(a) then a = 0; if missing(b) then b = 0; if missing(both) then both = 0;
run;
proc print; run;[/code:2lvtqqig]

I don't see why I am doing that. JingJu
作者: shiyiming    时间: 2010-3-10 06:33
标题: Re: 重合数据的问题
before you use data set to concatenate dataset a and b:

proc sort data=a; by com  date trade; run;
proc sort data=b; by com  date trade; run;

data both2; merge a(in=ina) b(in=inb); by com  date trade;
if ina and not inb then onlyina=1; if ina and inb then inboth=1;if inb and not ina then onlyinb=1;
run;




欢迎光临 SAS中文论坛 (http://www.mysas.net/forum/) Powered by Discuz! X3.2