楼主: viking1111
2459 5

数据缺失,悬赏,求高手指点 [推广有奖]

  • 2关注
  • 2粉丝

教授

99%

还不是VIP/贵宾

-

威望
0
论坛币
59966 个
通用积分
16.3202
学术水平
17 点
热心指数
30 点
信用等级
13 点
经验
13089 点
帖子
1282
精华
0
在线时间
1654 小时
注册时间
2006-12-22
最后登录
2023-3-6

2论坛币
我在做中小企业银行信用风险评价,用的是偏最小二乘和Logistic结合的方法。一共178个样本点,分为6个行业,这么算来,每组样本比较少。可我有22个自变量,每个自变量都是两个原始财务指标的比值。原始指标我下载后,个别是报错的,可能是中小企业本身指标就不全的缘故吧。这么算来,有4、5个自变量都有5—9个的数据缺失 ,如果把相应样本点都去了,就一下子少了三分之一,请各位指点,用EViews,spss怎么处理PLS和Logistic方法下的数据缺失。要详细操作步骤,不胜感谢!

最佳答案

ycl0536 查看完整内容

缺省值处理,先用回归或者神经元网络方法,把那些缺失的值给预测出来,预测的值可以当做缺省值来处理!你可以把具体的数据发给我看看吗?
关键词:数据缺失 高手指点 求高手 logistic ogistic EVIEWS SPSS 数据缺失 操作流程
沙发
ycl0536 发表于 2009-8-26 11:18:55 |只看作者 |坛友微信交流群
缺省值处理,先用回归或者神经元网络方法,把那些缺失的值给预测出来,预测的值可以当做缺省值来处理!你可以把具体的数据发给我看看吗?ycl-0536@163.com
已有 1 人评分学术水平 热心指数 收起 理由
viking1111 + 1 + 1 对论坛有贡献

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

使用道具

藤椅
420948492 发表于 2009-8-26 15:14:19 |只看作者 |坛友微信交流群
楼上提出的是一种数据缺失比较高级的办法,呵呵,
其实我有几方面的建议:
一,可以考虑调换方法,有的方法可以允许缺失值的存在,或者对缺失值不敏感,这样就不用处理缺失值,因为,毕竟从任何方面讲,你都是在模拟数据,都是在填充数据是吧?准确性让人怀疑,也给文章留下话柄。
二是,其实缺失值的处理有很多思路,这个是我上传的缺失值处理的材料http://www.pinggu.org/bbs/thread-461813-1-1.html
三对于你的数值,都是财务数据,是不是可以考虑用相似的行业相似的产值的企业的均值来代替,当然了具体要看什么数据,呵呵
欢迎讨论,420948492
已有 1 人评分学术水平 热心指数 收起 理由
viking1111 + 1 + 1 好的意见建议

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

有人的地方就有江湖

使用道具

板凳
ycl0536 发表于 2009-8-26 15:47:41 |只看作者 |坛友微信交流群
还有就是我觉得这22个指标也太多了,楼主可以用因子分析或者聚类的方法可以将指标确定在4-5个,因为很多的财务指标的相关性都是比较大的

使用道具

报纸
viking1111 发表于 2009-8-26 20:57:16 |只看作者 |坛友微信交流群
3# 420948492

谢谢您,很有收获。
第三种方法取行业均值可能比较困难。
对您的第一种方法——可以考虑调换方法,我觉得操作性比较好。因为,我的模型已经做出了,效果比较好,对于错误数据——原始数据为0.0001的数据(实际绝不可能,例如:主营业务利润),我也按0.0001计算了,可能因为近30个样本点的22维指标中各只有0或1指标不对的原因吧。
但有一点不太懂,您说:“毕竟从任何方面讲,你都是在模拟数据,都是在填充数据是吧?准确性让人怀疑,也给文章留下话柄。”什么是填充数据?
第二个方法,我看PPT了。贝叶斯的两种方法比较合适,但具体在excel上修改似乎要手工?因为错误数据分散,没有集中于某个样本点或某个指标,这样,我可能得随机手工操作上千次,工作量比较大,您能指点一下操作方法么,谢谢^_^

使用道具

地板
viking1111 发表于 2009-8-26 20:57:54 |只看作者 |坛友微信交流群
2# ycl0536

请查收

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 14:50