关于统计软件

折腾了两个晚上,终于在我的电脑上重新装了SAS。为什么要折腾呢?因为要帮professor干活,而这个professor用的是SAS,所以,我想说的选择统计软件的第一个原则是:你的老板用什么软件,你就用什么。什么,你跟老板说:俺不会用SAS,您老人家可不可以换一个别的软件使?那你赶紧卷铺盖滚蛋吧!这年头不但我们祖国大陆劳动力过剩,美国也一样(其实是来自类似于我们祖国的brain drain)。
当然也有老板不介意你用什么软件,只要给他show results即可。比如一些理科系的老板,他不care你用的是Fortan,C++,Java,还是Lisp,只要写好程序,跑出计算结果给他看就行了。当然这些老板自己是不用干coding的活,也无暇检查你的coding的。碰上这样的老板,我只能说,你小子走狗屎运了。
但有的老板有自己的偏好,也亲自动手尝试一些coding的活,比如我现在遇到的这位。遇到这种情况,你就要勇往直前、毫无条件、毫无保留
地附和之。其实这样做也有好处,锻炼你的快速学习上手能力。接下来就我这两年的经验,具体讨论一下几种常见的统计软件。我的专业是
sociology,现在算是向social demography转型,但以下所谈的经验对于其他social science的做quantative analysis的亦有裨益。
我05年入学时,系里就安排学习8周的Basic SAS。但是06年入学的新生改学Stata了。相比于SAS,Stata上手容易多了,最主要的原因是Stata的help文档非常user-friendly,这对于自学非常非常关键。相比之下,SAS的体系太庞大了,语法更杂一些。用Stata编写新的算法相较于SAS要容易些。但是用SAS编写data management比Stata方便些,比如SAS中的循环语句更接近于主流\传统的programing language,而Stata里的循环语句就有点别扭了。如果只是用Stata做些merge files之类的工作,那没什么问题;但如果是更复杂一些的东西,比如处理survival data,SAS可能是更好的选择。我不认同SAS很快会被Stata淘汰的论断,这就类似于Java的fans天天叫嚣C++过气一样。好像记得是BS本人,还是Lipman说过,C++与Java孰优孰劣的问题归根到底取决于行业智力投入的多寡。C++之所以统治了二十年,是因为当年全世界千万颗大脑都在琢磨这个语言;现如今轮到琢磨Java的脑袋个数成千万了,如果Java不比C++更“优越”的话,那才叫咄咄怪事,全世界搞CS的可以跳海去了。但只要在世界的某个角落依然有几颗聪明的脑袋琢磨C++,类似STL这样的石猴就会蹦出来。SAS和Stata之争也是同样的故事。
如果你打算将来在research method之类的期刊上发文的话,你需要更强悍,或者说更原始的工具,比如S-plus,或者它的GPL版本R。这两个东西可能是bio-statistician最常用的。与MATLAB相比,S-plus\R的优点是它们定位于统计学,在各个方面都对统计做了优化,应该是你研究新的统计方法的首选。上R-cran的网站看看就知道,全世界每天有多少人在用R实现新的统计算法。只要你愿意,每天都可以更新你的R,跑最fancy的model,比如spatial statistics。我目前接触到的bio-stats的faculty用的是S-plus而非R。R的更新稍稍滞后S-plus一些。几周前在一份newslist上看到有不少spatial models已经有了s-plus的版本,但是R版尚在进行中。
不建议使用SPSS,除非你用syntax,原因无他,与写代码相比,click button速度慢、效率低,model搞错了要从头挨个click button;如果你今天只跑了一半的models,想明天继续的话——没门,除非你用的是syntax;从工程学的角度而言,写syntax便于group members合作一个project,这是现代学术研究的大势所趋,借用OOP里的行话叫做代码的可重用性高。
还是想提一下C++,为什么呢?因为STL——泛型编程的威力太诱人了。如果有谁编了一份MLE的template,请发给我一份!
最后想说的是,手中无剑,心中有剑。扎实的统计学功底是本,统计软件的使用是末。软件只是个工具,比善用某个软件更为重要的是掌握统
计理论和方法,其次重要的是快速上手新软件的技能。软件的更新换代是很快的。10年前大家埋头哼哧SAS V6时,谁会料到日后将出现Stata?如果你此刻在为Stata或R痴狂,请放下这份心障,谁知道5年后最popular的是什么呢?不论你将来跳出academe,还是继续留在这个圈子里,你都可能遇见一个或主动选择,或被some one assigned的project,里面涉及到一种你初次接触的统计软件。所以,快别在网上转悠了,关上电脑去读survival analysis吧^_^
(午夜过后,不知所云,见谅)

About Hongwei Xu

I'm a social demographer, a single-child, a husband, and a father.
此条目发表在未分类分类目录。将固定链接加入收藏夹。

1 Responses to 关于统计软件

  1. Kevin说道:

    读过,不错。时隔若干年,还是很实用

留下评论