析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。因子分析就是这样一种降维的方法。3.2 因子分析法因子分析(Factor Analysis, FA)是多元统计分析中的一种重要方法, 最早由英国心理学家C.E.斯皮尔曼提出,其主要目的是用来描述隐藏在一组观测到的变量中的一些更基本的,但又无法直接测量到的隐性变量(Hidden Variable)。因子分析利用降维的思想,从研究原始变量相关矩阵内部结构出发, 把一些错综复杂的变量归结为少数几个综合因子。其基本思路是根据相关性大小将变量分组,使得同组内的变量之间的相关性较高,不同组内的变量间的相关性较低。每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公共因子。对于所研究的问题就可以用最少个数的不可观测的公共因子的线性函数与特殊因子之和来描述观测到的每个分量。比如,某公司老板对应聘者进行面试,并给出他们在15个方面所得的分数,这15个方面是:申请书的形式( ),外貌( ),专业能力( ),讨人喜欢( ),自信心( ),精明( ),诚实( ),推销能力( ),经验( ),积极性( ),抱负( ),理解能力( ),潜力( ),交际能力( ),适应性( )。通过因子分析,这15个方面可以归结为应聘者的外露能力( )、经验( )、讨人喜欢的程度( )、专业能力( )和外貌( )这五个因子。虽然因子分析最早由心理学家提出,但因为其具有降维的特性,现在已经广泛应用于人脸识别、 语音识别、 Web 文本特征提取、 社会调查、 心理分析和教育评估等诸多领域。3.1.1 因子分析模型设 是 维可观测的随机变量,其均值为 ,协方差为 ; 是 维不可观测的随机变量,其均值为 ,协方差为 ;通常有 。 是与 互不相关的 维不可观测的随机变量,且有均值为 ,协方差为 ;则因子分析的一般模型为 (3-1)将上式写成矩阵形式为 (3-2)其中 被称为 的公共因子, 被称为 的特殊因子;模型中的矩阵 是待估计的系数矩阵,被称为因子载荷阵。这里有两个重要的假设:(1)特殊因子之间互不相关,且有 ;(2)特殊因子和公共因子之间互不相关,即 。3.1.2 因子分析模型的性质1. 的协方差 的分解 (3-3)2. 因子载荷阵 的统计意义(1) 的元素 (3-4)可见 中元素 刻画了变量 与 之间的相关性,称为 在 上的因子载荷。 越大,说明 对 的影响越大。(2) 的行元素的平方和 因为 的方差为 (3-5)可以看到, 的方差由两部分组成: 是全部公共因子对变量 的总方差所做的贡献,它反映了公共因子对 的影响,称为共性方差; 是特殊因子 对 的方差贡献,称为特殊方差。(3) 的列元素的平方和 因为 (3-6)其中 , 是公共因子 对 的总方差贡献,它反映了 对 的影响,是衡量公共因子 重要性的一个尺度。显然, 越大,表明 对 的贡献越大。(4)因子旋转因子载荷阵 是不唯一的,设 为任意 正交矩阵,令 , ,则有 (3-7) (3-8) (3-9)所以有 (3-10)因此可以通过给因子载荷阵右乘一个正交矩阵 ,来旋转因子,使新的因子有更好的意义。3.3 因子分析与主成分分析的比较主成分分析是(Principal Component Analysis,PCA)一种与因子分析类似的降维方法,其基本理论是通过对原始观测变量进行线性组合从而得到主分量。设 是 维随机变量,均值为 ,