未加星标

五问主成分分析

字体大小 | |
[挖掘分析应用 所属分类 挖掘分析应用 | 发布者 店小二04 | 时间 | 作者 红领巾 ] 0人收藏点击收藏

主成分分析是一种多元分析中最常见的降维和赋权方法。然而,在实际的应用中,许多人在没有搞清楚方法的意义时就大胆使用,很有点好分析不求甚解的味道。要知道这样的行为不仅害人而且害己。所谓害人,就是害了阅读你报告的人;所谓害己,就是你会一而再,再而三的犯错。

第一问:为什么要降维?

在实际分析问题时,研究者往往选择很多的指标。这些指标之间经常会存在一定程度的线性相关,这样就会导致信息的重叠。直白说就是用多个指标分析一个问题,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等地纳入模型,就会导致结果失真。例如衡量学生成绩时,成绩表里有语文、数学、物理、化学。可是化学老师勤快,一学期测验过好多次,所以这里就有多个化学成绩。那么计算总分的时候,如果不把几个化学成绩降维成一个化学成绩,就会由于信息的重叠导致结果失真。

第二问:线性相关就一定是信息重叠吗?

这个不一定吧。我们举个例子。比如:要衡量经济发展的影响因素,理论上讲,刺激经济发展的三驾马车是投资、消费和出口,那么我们用于衡量经济发展程度是不是就把这三个指标主成分一下?肯定不是。正确的做法应该是这三个相加,纵然他们之间可能存在相关,甚至是高度相关,也不能使用主成分。因为这种相关不是信息的重叠。所以这里记住一点,线性相关并不意味着信息重叠。

第三问:降维一定要用主成分吗?

这个答案更容易回答,相信很多人都会说否。但实际中却一直这么操作。因为觉得其他降维方法不会呀,而且主成分貌似很高深,用它倍有面子。其实,实际中使用主成分是因为从主观上没有办法删减变量,如果主观上就能区别出哪些是核心原因,哪些不是,直接将不是的删了就行了,没必要搞个神秘的主成分来把问题复杂化。要知道主成分使用时,第一步是标准化,这样一来很多指标的意义就模糊了。这种删减指标的降维方法估计人人都会,可实际中统计专业的达人们却不屑使用。总觉得用这个方法太没面子了。所以这里再强调点,使用方法是为了有效解决问题。有效才是解决问题的关键,面子屁都不是。

第四问:使用主成分时,相关变量一起上吗?

答案依然为否。在使用主成分前,应该先对指标大致分类,将指标中同一类型或者衡量同一个方面的指标归为一类,这样在分类的基础上进行研究。这里有点验证性因子分析的意思。别跟我说这样太主观,其实主观比客观有效的多。如果只有客观,软件就可以解决问题,要人干吗?再说,在人类社会中基本没有绝对客观的东西,所有的客观分析都建立在主观的基础上。高考客观吗?卷子是主观出的。GDP客观吗?指标是主观定的……

第五问:主成分加权很科学吗?

主成分加权是一种广泛采用的客观赋权方法。赋权的依据是各个主成分的方差贡献率。但是方差大权重就应该大吗?重要性的判定应该依据指标的实际意义或者作用,而不应该简单地依靠方差大小来判定吧。所以在没有弄清楚主成分意义的情况下而盲目加权是不是有点太武断了!

作者简介:舍得,一直致力于商业数据分析与挖掘,力求通过深入的数据分析,指导营销管理。用数据说话,说真话,说实话!

内容来自:http://blog.sina.com.cn/s/blog_66035a700100hupi.html


(责任编辑:中国统计网)




tags: 成分,指标,降维,主观,客观,赋权,重叠,成绩,方法,相关,化学,方差
分页:12
转载请注明
本文标题:五问主成分分析
本站链接:https://www.codesec.net/view/242798.html


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 挖掘分析应用 | 评论(0) | 阅读(243)