因子分析是主成分分析的推廣和發展,它也是將具有錯綜復雜關系的變量(或樣品)綜合為數量較少的幾個因子,以再現原始變量與因子之間的相互關系,同時根據不同因子還可以對變量進行分類,它也是屬于多元分析中處理降維的一種統計方法。
因子分析的內容十分豐富,這里僅介紹因子分析常用一種類型:R型因子分析(對變量做因子分析)。
基本思想:因子分析的基本思想是通過變量(或樣品)的相關系數矩陣(對樣品是相似系數矩陣)內部結構的研究,找出能控制所有變量(或樣品)的少數幾個隨機變量去描述多個變量(或樣品)之間的相關(相似)關系,但在這里,這少數幾個隨機變量是不可觀測的,通常稱為因子。然后根據相關性(或相似性)的大小把變量(或樣品)分組,使得同組內的變量(或樣品)之間相關性(或相似性)較高,但不同組的變量相關性(或相似性)較低。
R型因子分析數學模型:
用矩陣表示:=
簡記為
且滿足:
即
和
是不相關的;
即
不相關且方差皆為1。
即
不相關,且方差不同。
其中 是可實測的
個指標所構成
維隨機向量,
是不可觀測的向量,
稱為
的公共因子或潛因子。
稱為因子載荷是第
個變量在第
個公共因子上的負荷。矩陣
稱為因子載荷矩陣;
稱為
的特殊因子,通常理論上要求
的斜方差陣是對角陣,
中包括了隨機誤差。
因子分析和主成分分析的區別:主成分分析的數學模型實質上是一種變換,而因子分析模型是描述原指標斜方差陣結構的一種模型。另外,在主成分分析中每個主成分相應的系數
是唯一確定的。與此相反,在因子分析中每個因子的相應系數不是唯一的,即因子載荷不是唯一的。
因子模型中公共因子,因子載荷和變量共同度的統計意義:
假定因子模型中,各個變量以及公共因子、特殊因子都已經是標準化(均值為0,方差為1)的變量。
(1)因子載荷的統計意義:因子載荷的統計意義就是第
個變量與第
個公共因子的相關系數即表示
依附于
的分量(比重)。它反映第
個變量在第
個公共因子上的相對重要性。
(2)變量共同度的統計意義:變量的共同度定義為因子載荷陣
中第
行元素的平方和,即
,為了說明它的統計意義,將下式兩邊求方差,即
由于已經標準化了,所以有
此式說明變量的方差由兩部分組成:第一部分為共同度
,它刻劃全部公共因子對變量
的總方差所作的貢獻,
越接近1,說明該變量的幾乎全部原始信息都被所選取的公共因子說明了。
(3)公因子的方差貢獻的統計意義
將因子載荷矩陣中各列元素的平方和記為:
稱為公共因子
對
的貢獻,即
表示同一公共因子
對諸變量所提供的方差貢獻之總
和,它是衡量公共因子相對重要性指標。
因子分析的計算步驟:
第一步:將原始數據標準化,為書寫方便仍記為。
第二步:建立變量的相關系數陣
其中
第三步:求R的特征根及相應的單位特征向量,分別記為 和
根據累計貢獻率的要求比如,取前
個特征根及相應的特征向量寫出因子載荷陣:
第四步:對A施行方差最大正交旋轉。建立因子分析數學模型的目的不僅要找出公共因子以及對變量進行分組,更重要的是要知道每個公共因子的意義,以便對實際問題做出科學的分析,如果每個公共因子的含義不清,不便于進行實際背景的解釋,這時根據因子載荷陣的不唯一性,可對因子載荷陣實行旋轉即用一個正交陣右乘A(由線性代數知道一個正交變換,對應坐標系的一次旋轉)使旋轉后的因子載荷陣結構簡化,便于對公共因子進行解釋。所謂結構簡化就是使每個變量僅在一個公共因子上有較大的載荷,而在其余公共因子上的載荷比較小,至多是中等大小。這種變換因子載荷陣的方法稱為因子軸的旋轉,而旋轉的方法有多種,如正交旋轉,斜交旋轉等。
第五步:計算因子得分。因子分析的數學模型是將變量(或樣品)表示為公共因子的線性組合,由于公共因子能反映原始變量的相關關系,用公共因子代表原始變量時,有時更有利于描述研究對象的特征,因而往往需要反過來將公共因子表示為變量(或樣品)的線性組合,即
稱上式為因子得分函數。用它來計算每個樣品的公共因子得分。這樣就可以在二維平面上作出因子得分的散點圖,進而對樣品進行分類或作為下一步分析原始數據時對問題作更深入的研究。