SAS中文论坛

标题: sas与文本数据 [打印本页]

作者: shiyiming    时间: 2012-11-26 23:43
标题: sas与文本数据
[color=#FF0000:kzbp7ubm]
问题是这样的,每个客户都有一段文字表述,大约有几十万个客户,怎样找出这些客户的共同点,类似点或不同点。我的想法是(1)对描述性文字进行分解,分解成单个的描述性词语,然后统计词语出现的频率;(2)以查词典的方式统计所有客户描述性文字中的词语出现的频率。

我知道这个想法是很笨的。有没有更好的方式呢? 其次,即使上述方式可行,又会出现如下问题:(1)如何把文字信息输入sas, 因为有些描述性文字有1000多字;(2)巨大的计算量。

肯请各位指点一下!
[/color:kzbp7ubm]
作者: shiyiming    时间: 2012-11-28 05:56
标题: Re: sas与文本数据
我对你的这个问题,非常感兴趣,这就是文本挖掘。我想与你一起做,你能发很小的一部分的文本给我吗?前提是不影响你的安全性。
作者: shiyiming    时间: 2012-11-28 23:14
标题: Re: sas与文本数据
好啊,正想找人讨论呢,这两天有点忙,过几无我们好好讨论一下,也欢迎别的sasor加入,成果共享,共同提高!
作者: shiyiming    时间: 2012-11-29 08:33
标题: Re: sas与文本数据
嗯,我luijb@163.com,qq: 78615039
作者: shiyiming    时间: 2012-12-5 15:39
标题: Re: sas与文本数据
去年年末吉林大学的一名教授在我们学校做过一个报告,他所做的就是长春市市长热线问题的文本挖掘,当时没听懂,很感兴趣,楼主看看,能不能找到他的文献,看他是怎么做的,他也是对市民反映的问题经行关键词扫描。
我是个菜鸟,我可以给你们打打下手,和大家学习学习,SAS实现文本挖掘的问题!276699320@qq.com
作者: shiyiming    时间: 2012-12-5 16:09
标题: Re: sas与文本数据
我不知道你这个是什么文本?若是中文的,赫赫,这个不是太好办的很。
首先需分词。现在很多论文给出了中文分词的办法。我经常看这些方法。
然后得归类。这包括一个数据语料库的建立,需要把歧义型的中文词语给给分类。这个也有方法。
接着再是用Apriori不知道是不是这么拼,需要中文的算法来进行如上的分词归类。
流程比较复杂,而且工作量特别大。

若是英文德文西班牙文等,SAS是可以支持文本挖掘的。
这个具体的案例不是很多。

很多技术牛逼的,都是用别的语言开发平台来做这个。
作者: shiyiming    时间: 2012-12-24 08:58
标题: Re: sas与文本数据
非常感谢你们的参与,请有这方面研究的朋友指点一下,留下参考文献名或研究思路。有兴趣参与的,请留下邮箱或qq.这是我们的个人兴趣,由于平时工作比较忙,这方面的沟通不会太及时,但是只要坚持,还是可以做点东西的




欢迎光临 SAS中文论坛 (http://www.mysas.net/forum/) Powered by Discuz! X3.2