判別分析是判別樣品所屬類型的一種統計方法。判別分析與聚類分析不同。判別分析是在已知研究對象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測數據,在此基礎上根據某些準則建立判別式,然后對未知類型的樣品進行判別分類。對聚類分析來說,一批給定樣品要劃分的類型事先并不知道,正要通過聚類分析來給以確定類型的。
正因為如此,判別分析和聚類分析往往聯合起來使用,例如判別分析是要求先知道各類總體情況才能判別新樣品的歸類,當總體分類不清楚時,可先用聚類分析對原來的一批樣品進行分類,然后再用判別分析建立判別式以對新樣品進行判別。
在生產、科研和日常生活中經常需要根據觀測到的數據資料,對所研究的對象進行分類。例如在經濟學中,根據人均國民收入、人均工農業產值、人均消費水平等多種指標來判定一個國家的經濟發展程度所屬類型。
判別分析內容很豐富,方法很多。判別分析按判別的組數來區分,有兩組判別分析和多組判別分析;按區分不同總體的所用的數學模型來分,有線性判別和非線性判別;按判別時所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問題,因此有不同的判別準則,如馬式距離最小準則、Fisher準則、平均損失最小準則、最小平方準則、最大似然準則、最大概率準則等等,按判別準則的不同又提出多種判別方法。這里僅介紹四種常用的判別方法即距離判別法、Fisher判別法、Bayes判別法和逐步判別法。
(1)距離判別法的基本思想:首先根據已知分類的數據,分別計算各類的重心即分組(類)的均值,判別準則是對任給的一次觀測,若它與第類的重心距離最近,就認為它來自第
類。
距離判別法,對各類(或總體)的分布,并無特定的要求。
(2)Fisher判別法的基本思想:
不等協差陣的兩總體Fisher判別法:從兩個總體中抽取具有個指標的樣品觀測數據,借助方差分析的思想構造一個判別函數或稱判別式:
其中系數
、
、
、
確定的原則是使兩組間的區別最大,而使每個組內部的離差最小。有了判別式后,對于一個新的樣品,將它的
個指標值代入判別式中求出
值,然后與判別臨界值(或稱分界點后面給出)進行比較,就可以判別它應屬于哪一個總體。
由于多總體Fisher判別法比較復雜,此處不加以介紹了。
(3)Bayes判別法的基本思想:總是假定對所研究的對象已有一定的認識,常用先驗概率來描述這種認識。設有個總體
他們的先驗概率分別為
(它們可以由經驗給出也可以估出)。各總體的密度函數分別為:
(在離散情形是概率函數),在觀測到一個樣品
的情況下,可用著名的Bayes公式計算它來自第g總體的后驗概率(相對于先驗概率來說,將它又稱為后驗概率):
并且當時,則判
來自第
總體。
有時還可以使用錯判損失最小的概念作判決函數。這時把錯判歸第
總體的平均損失定義為
其中
稱為損失函數。它表示本來是第g總體
的樣品錯判為第總體的損失。顯然上式是對損失函數依概率加權平均或稱為錯判的平均損失。當
時,有
;當
時,有
。建立判別準則為如果
則判定
來自第
總體。
原則上說,考慮損失函數更為合理,但是在實際應用中不容易確定,因此常常在數學模型中就假設各種錯判的損失皆相等,即
這樣一來,尋找使后驗概率最大和使錯判的平均損失最小是等價的,即
(4)逐步判別法的基本思想:逐步判別法與逐步回歸法的基本思想類似,都是采用“有進有出”的算法,即逐步引入變量,每引入一個“最重要”的變量進入判別式,同時也考慮較早引入判別式的某些變量,如果其判別能力隨新引入變量而變為不顯著了(例如其作用被后引入的某幾個變量的組合所代替),應及時從判別式中把它剔除去,直到判別式中沒有不重要的變量需要剔除,而剩下來的變量也沒有重要的變量可引入判別式時,逐步篩選結束。這個篩選過程實質就是做假設檢驗,通過檢驗找出顯著性變量,剔除不顯著變量。