人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 数据缺失，悬赏，求高手指点

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: viking1111

2459 5

数据缺失，悬赏，求高手指点 [推广有奖]

2关注
2粉丝

教授

99%

还不是VIP/贵宾

威望: 0 级
论坛币: 59966 个
通用积分: 16.3202
学术水平: 17 点
热心指数: 30 点
信用等级: 13 点
经验: 13089 点
帖子: 1282
精华: 0
在线时间: 1654 小时
注册时间: 2006-12-22
最后登录: 2023-3-6

楼主

viking1111 发表于 2009-8-26 11:18:54 |只看作者 |坛友微信交流群|倒序 |AI写论文

2论坛币

我在做中小企业银行信用风险评价，用的是偏最小二乘和Logistic结合的方法。一共178个样本点，分为6个行业，这么算来，每组样本比较少。可我有22个自变量，每个自变量都是两个原始财务指标的比值。原始指标我下载后，个别是报错的，可能是中小企业本身指标就不全的缘故吧。这么算来，有4、5个自变量都有5—9个的数据缺失，如果把相应样本点都去了，就一下子少了三分之一，请各位指点，用EViews，spss怎么处理PLS和Logistic方法下的数据缺失。要详细操作步骤，不胜感谢！

最佳答案

ycl0536 查看完整内容

缺省值处理，先用回归或者神经元网络方法，把那些缺失的值给预测出来，预测的值可以当做缺省值来处理！你可以把具体的数据发给我看看吗？

分享0 收藏1 回帖

关键词：数据缺失高手指点求高手 logistic ogistic EVIEWS SPSS 数据缺失操作流程

使用道具举报

沙发

ycl0536 发表于 2009-8-26 11:18:55 |只看作者 |坛友微信交流群

缺省值处理，先用回归或者神经元网络方法，把那些缺失的值给预测出来，预测的值可以当做缺省值来处理！你可以把具体的数据发给我看看吗？ycl-0536@163.com

已有 1 人评分	学术水平	热心指数	收起理由
viking1111	+ 1	+ 1	对论坛有贡献

总评分: 学术水平 + 1 热心指数 + 1 查看全部评分

使用道具举报

藤椅

420948492 发表于 2009-8-26 15:14:19 |只看作者 |坛友微信交流群

楼上提出的是一种数据缺失比较高级的办法，呵呵，
其实我有几方面的建议：
一，可以考虑调换方法，有的方法可以允许缺失值的存在，或者对缺失值不敏感，这样就不用处理缺失值，因为，毕竟从任何方面讲，你都是在模拟数据，都是在填充数据是吧？准确性让人怀疑，也给文章留下话柄。
二是，其实缺失值的处理有很多思路，这个是我上传的缺失值处理的材料http://www.pinggu.org/bbs/thread-461813-1-1.html
三对于你的数值，都是财务数据，是不是可以考虑用相似的行业相似的产值的企业的均值来代替，当然了具体要看什么数据，呵呵
欢迎讨论，420948492

已有 1 人评分	学术水平	热心指数	收起理由
viking1111	+ 1	+ 1	好的意见建议

总评分: 学术水平 + 1 热心指数 + 1 查看全部评分

有人的地方就有江湖

使用道具举报

板凳

ycl0536 发表于 2009-8-26 15:47:41 |只看作者 |坛友微信交流群

还有就是我觉得这22个指标也太多了，楼主可以用因子分析或者聚类的方法可以将指标确定在4-5个，因为很多的财务指标的相关性都是比较大的

使用道具举报

报纸

viking1111 发表于 2009-8-26 20:57:16 |只看作者 |坛友微信交流群

3# 420948492

谢谢您，很有收获。
第三种方法取行业均值可能比较困难。
对您的第一种方法——可以考虑调换方法，我觉得操作性比较好。因为，我的模型已经做出了，效果比较好，对于错误数据——原始数据为0.0001的数据（实际绝不可能，例如：主营业务利润），我也按0.0001计算了，可能因为近30个样本点的22维指标中各只有0或1指标不对的原因吧。
但有一点不太懂，您说：“毕竟从任何方面讲，你都是在模拟数据，都是在填充数据是吧？准确性让人怀疑，也给文章留下话柄。”什么是填充数据？
第二个方法，我看PPT了。贝叶斯的两种方法比较合适，但具体在excel上修改似乎要手工？因为错误数据分散，没有集中于某个样本点或某个指标，这样，我可能得随机手工操作上千次，工作量比较大，您能指点一下操作方法么，谢谢^_^

使用道具举报