SAS中文论坛

 找回密码
 立即注册

扫一扫,访问微社区

查看: 3466|回复: 6
打印 上一主题 下一主题

sas与文本数据

[复制链接]

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
楼主
 楼主| 发表于 2012-11-26 23:43:55 | 只看该作者

sas与文本数据

[color=#FF0000:kzbp7ubm]
问题是这样的,每个客户都有一段文字表述,大约有几十万个客户,怎样找出这些客户的共同点,类似点或不同点。我的想法是(1)对描述性文字进行分解,分解成单个的描述性词语,然后统计词语出现的频率;(2)以查词典的方式统计所有客户描述性文字中的词语出现的频率。

我知道这个想法是很笨的。有没有更好的方式呢? 其次,即使上述方式可行,又会出现如下问题:(1)如何把文字信息输入sas, 因为有些描述性文字有1000多字;(2)巨大的计算量。

肯请各位指点一下!
[/color:kzbp7ubm]
回复 支持 反对

使用道具 举报

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
沙发
 楼主| 发表于 2012-11-28 05:56:16 | 只看该作者

Re: sas与文本数据

我对你的这个问题,非常感兴趣,这就是文本挖掘。我想与你一起做,你能发很小的一部分的文本给我吗?前提是不影响你的安全性。
回复 支持 反对

使用道具 举报

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
板凳
 楼主| 发表于 2012-11-28 23:14:59 | 只看该作者

Re: sas与文本数据

好啊,正想找人讨论呢,这两天有点忙,过几无我们好好讨论一下,也欢迎别的sasor加入,成果共享,共同提高!
回复 支持 反对

使用道具 举报

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
地板
 楼主| 发表于 2012-11-29 08:33:33 | 只看该作者

Re: sas与文本数据

嗯,我luijb@163.com,qq: 78615039
回复 支持 反对

使用道具 举报

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
5#
 楼主| 发表于 2012-12-5 15:39:35 | 只看该作者

Re: sas与文本数据

去年年末吉林大学的一名教授在我们学校做过一个报告,他所做的就是长春市市长热线问题的文本挖掘,当时没听懂,很感兴趣,楼主看看,能不能找到他的文献,看他是怎么做的,他也是对市民反映的问题经行关键词扫描。
我是个菜鸟,我可以给你们打打下手,和大家学习学习,SAS实现文本挖掘的问题!276699320@qq.com
回复 支持 反对

使用道具 举报

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
6#
 楼主| 发表于 2012-12-5 16:09:58 | 只看该作者

Re: sas与文本数据

我不知道你这个是什么文本?若是中文的,赫赫,这个不是太好办的很。
首先需分词。现在很多论文给出了中文分词的办法。我经常看这些方法。
然后得归类。这包括一个数据语料库的建立,需要把歧义型的中文词语给给分类。这个也有方法。
接着再是用Apriori不知道是不是这么拼,需要中文的算法来进行如上的分词归类。
流程比较复杂,而且工作量特别大。

若是英文德文西班牙文等,SAS是可以支持文本挖掘的。
这个具体的案例不是很多。

很多技术牛逼的,都是用别的语言开发平台来做这个。
回复 支持 反对

使用道具 举报

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
7#
 楼主| 发表于 2012-12-24 08:58:38 | 只看该作者

Re: sas与文本数据

非常感谢你们的参与,请有这方面研究的朋友指点一下,留下参考文献名或研究思路。有兴趣参与的,请留下邮箱或qq.这是我们的个人兴趣,由于平时工作比较忙,这方面的沟通不会太及时,但是只要坚持,还是可以做点东西的
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|SAS中文论坛  

GMT+8, 2025-5-3 06:00 , Processed in 0.212398 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表