数据回归分析中EViews、SAS、STATA等软件使用的比较
(一)课题信息
数据来源:中国综合社会调查数据(CGSS)
(中国人民大学社会学系与香港科技大学调查研究中心联合发起的调查项目)
数据特点:数据均来自于CGSS数据库,而数据库是由调查问卷得到的,因此数据均是有序离散的自报告形式的数据。
(二)选题背景
笔者运用来自中国的数据,对2005年度我国居民幸福感水平进行计量分析,并得到许多有益的结论。最近,笔者使用2003-2006年度的数据,对我国居民幸福感水平的演进进行面板数据分析。
软件使用方面,笔者自接触EViews和EXCEL以来,已经较为熟悉这两个软件;最近又有机会接触了STATA和SAS软件,并在此基础上深入学习这些软件的操作。
笔者分别运用这四种软件,对数据进行整理、统计和分析,并通过此文详细地予以对比。
(三)变量属性
关于幸福度的问题是“总起来说,这些天来怎么样――你是很幸福、幸福、一般、不幸福、非常不幸福”。并分别对其赋值为1=非常不幸福,2=不幸福,3=一般,4=幸福,5=非常幸福。
其他主要变量总结如表1
表1 回归分析中主要自变量
基本信息 | 经济状况 | 基本信息 |
户口 | 个人收入 | 身体状况 |
性别 | 亲友收入 | 精神状况 |
民族 | 基尼系数 | |
受教育年限 | ||
就业状况 | ||
婚姻状况 | ||
政治面貌 |
笔者运用不同软件进行数据录入与分析,先后遇到不同的数据定义规范。笔者认为,在这个过程中主要由以下几个方面值得注意。
1.有些软件(EViews)过于简单,不能区分不同变量的本质;有的软件(EXCEL)则过于傻瓜,将本来简单的事情变得非常复杂;还有软件(STATA和SAS)分类非常细致,格式非常规范,十分适合进行这些数据的处理。
2.定义面板数据时,不同软件有不同要求,有的软件便于理解,但有的软件便于录入。
表2 数据定义中各软件之比较
EXCEL | EViews | STATA | SAS | |
数据类型 | 1、数据类型丰富 2、系统预设 3、自动生成,简单方便,但自动识别也容易发生误会或错误 | 1、数据类型单一 2、简单方便 3、不能区别不同类型数据 4、不能对数据注释 | 1、数据类型丰富 2、定义严格,不会发生系统自动默认属性等错误 3、格式转换需要记忆各种命令 4、能够对数据添加注释,当变量较多时,变量名的含义一目了然 | |
面板数据定义 | 无法定义,只能手动标注 | 1、数据录入容易 2、菜单操作,不需要输入命令 3、生成的面板数据容易直观识别 | 1、数据录入较为困难(需要分类别分年度排序) 2、生成的面板数据不易直观识别,只是通过系统命令进行内部标识。 | 略优于STATA,但同EViews相比仍略显不易直观识别。 |
(四)数据处理
笔者进行的本课题中,数据文件格式为sav,笔者通过Stat/Transfer软件,将数据文件转换成stata的数据文件格式dat。
针对已有的数据库,笔者将进行幸福感的面板数据分析,由于数据为离散有序数据,因此选用序logit面板数据模型进行分析。面临的任务有
1.提取回归分析所需要的数据
本课题需要表1中所列出的主要变量,而调查数据库中有上千种变量名,需要在分析之前提取所需要的数据变量。
2.补充某些年份缺失的数据变量
各个年度之间的调查问卷略有不同,早些年份的调查问卷较为简单,缺失一些关键变量。举例而言,笔者要分析收入水平对幸福感的影响,包括绝对收入(家户的年收入)和相对收入(社区或村落的平均收入)。其中2003年的相对收入数据缺失,需要设置替代变量搜集数据并手动添加。
3.转换部分数据格式
部分数据格式为字符型,需要转换成数值型,并且部分数值型数据需要设置精确度。(STATA用到destring命令,EViews并不需要任何转换,EXCEL则需要手动操作细调。)
笔者综合各种软件,最终还是将需要处理的数据用STATA的命令筛选出来,然后将数据另存后转换为EXCEL格式的数据,进行缺失数据的添加和修改。
表3 数据处理中各软件之比较
EXCEL | EViews | STATA | SAS | ||
数据提取 | 较为繁琐,需要手动删除或剪切变量 | 直接使用data等命令,可同时操作多种变量,简单方便 | |||
新数据录入 | 简单清晰,直接录入 | 数据界面与EXCEL相似,但功能简单,且界面不友好,输入十分繁琐 | 数据在txt中录入,与EViews和STATA相比较为简单 | ||
转换数据格式 | 菜单操作,简单方便 | 无需转换格式 | Destring等命令转换,简单方便 | ||
(五)统计分析
在对数据进行回归分析之前,需要对各个变量的基本数据特征予以描述。
表4 课题中主要变量的数据统计结果
表略
得到这样的基本统计分析结果,不同软件需要不同的菜单操作或命令。相比较而言,STATA和SAS非常方便快捷,变量数量的拓展性非常好,当变量数量很少时,EXCEL和EViews同样能便捷地得到相似的描述结果,但当变量的数量非常多时,STATA和SAS的优势就凸现出来。
表5 统计分析中各软件之比较
EXCEL | EViews | STATA | SAS | |
统计分析命令 | SUM AVERAGE MAX MIN STDEV | 菜单操作 | Sum | PROC MEANS |
操作特点 | 直观便捷,变量数量多时操作繁琐 | 简单便捷,结果输出简洁 |
(六)作图
笔者综合各个软件作图的特点,最终选择用STATA软件对现有数据进行图形分析。图1是图形分析之一。
图1 利用STATA作图图例一则
选择STATA作图的原因在于,STATA能够对数据的表现形式(散点、曲线、柱状等)控制的比较好,并且可以通过命令方式,对散点大小、曲线颜色、横纵坐标等予以规定,另外只需要写一条命令,运用于不同数据库,就能批量得到不同年份的图形分析结果。
表5 统计分析中各软件之比较
EXCEL | EViews | STATA | SAS | |
作图命令 | 菜单与命令交互式操作 | 菜单操作 | 点(scatter)、线(line)、面(area),直方图(histogram)、条形图(bar)、饼图(pie)、函数曲线(function)以及矩阵图(matrix) | PROC UNIVATIATE等 |
评价 | 上手快,图形美观 | 上手快,图形单调 | 上手慢,图形类型丰富多彩,可添加多重信息 |
(七)计量分析
对于本文研究的数据对象特点(离散有序数据)和研究方法(序logit面板数据分析),笔者分别利用Eviews、STATA和SAS进行测试回归。结果如表6所示
表6 logit回归分析中各软件之比较
EViews | STATA | SAS | |
序Logit模型 | 1、 2、 | 运用logit命令 logit depvar [indepvars] [if] [in] [weight] [, options] | proc logistic data=logistic descending; model accident=age vision drive / selection=forward;run; |
面板序logit模型 | 无法实施 | 运用xtlogit命令 xtlogit depvar [indepvars] [if] [in] [weight] [, re RE_options] | 暂时没查到如何运行 |
评价 | 1、 2、 | 1、 2、 3、 | 1、 拓展性更强 2、 上手慢,操作需要编程实现 |
通过利用STATA或SAS对2005年的数据进行logit回归分析,主要的结果如表7所示。由于2003年的数据仍在处理当中,故尚未得到面板数据回归结果。
表7 幸福方程的序logit回归主要结果(被解释变量:幸福度)
表略
根据上面对2005年数据集的计量分析结果,笔者可以得到如下结论(结论略)
(八)综合评价
本课题论文为实证论文,需要运用计量统计软件对数据分析。笔者在数据整理分析过程中,综合运用多种软件进行操作,并将各个过程中用到的软件标注如下表所示。
表8各软件之分项目总体比较
EXCEL | EViews | STATA | SAS | |
数据筛选 | √ | √ | ||
增补数据 | √ | |||
数据格式处理 | √ | |||
基本统计分析 | √ | √ | ||
作图分析 | √ | |||
计量分析 | √ | √ |
事实上,笔者接触到的同学和老师,大多数在做实证分析过程中,都是将初期的数据筛选、分类、整理工作放在EXCEL中进行,对数据进行初期的处理,最终得到计量统计软件需要的数据格式,然后导入STATA、SAS等软件中进行数据分析。这是因为EXCEL的公式和数据操作比较容易上手,且非常直观。另外在作图方面,EXCEL的功能也比较强大,但是相比较STATA而言,其拓展性和可修改性仍然有不少的差距,因此对STATA比较熟悉的研究人员多倾向于使用STATA。对于计量分析,多数学生倾向于使用Eviews,因为STATA是纯命令操作,需要有一定命令和编程基础,SAS由于软件过于庞大、命令更加繁琐,并不是学生的首选。但是经过一定阶段的训练后,多数进阶操作者会选择转向STATA和SAS,其操作过程容易保存,拓展性较强,这些都是使得STATA和SAS成为初学者进阶操作的选择。