求助!各位高手,小弟在stata处理数据时,遇到以下问题,希望大家能予以解答。
数据格式如下:
编号 日期 变量1
1 2004 国家
1 2005 法人
1 2006 境外法人,国有
2 2005 ……
2 2006
3 2004
3 2005
3 2006
4 2006
5 2004
5 2005
5 2006
……
我的问题是:
1.每个编号应该有2004-2006三年的数据,如果缺失(如编码2和4),则应当删除,应该如何实现呢?
2.产生虚拟变量“变量2” ,当“变量1”中的字段包含“国”时则变量2=1,否则为0。
注:变量1为字符型变量,长度不起,为说明性文字。
此外,在考虑另一个回归模型时:y=a+b*x
要对上述每个编码做一个回归(每个编码有上百个数据,共有上百个编码),并保留每次回归的R-squared,同时形成一个新的表格如下格式:
编码 R-squared
1
2
3
……
不知这又该如何实现呢?
写论文急用,先行谢过大家了!