PCA
Principle Component Analysis (PCA) - Hauptkomponentenanalyse
Modul "Multivariate Statistik": Principal Component Analysis (PCA)
Uwe Mattler, Peter Zezula
Ziel ist es, PCA berechnen und interpretieren zu lernen.
Organisatorisches
- -
Das R-Tutorial dazu.
PCA
Zweck
Beschreiben der Varianz einer Menge korrelierter Variablen durch wenige unkorrelierte Variablen (Komponenten). Komponenten geordnet nach 'Wichtigkeit' (Anteil an erklärter Varianz).
- Reduktion vieler Maße auf wenige (einen) aussagefähige Werte (Indices).
- Bei sehr vielen Variablen: Weiterrechnen mit weniger Variablen die einen substanziellem Anteil der Varianz erklären.
- Häufig konzentriert sich die Aufmerksamkeit auf die erste, wichtigste Komponente, die den höchsten Anteil an Varianz erklärt.
- Teilweise sind aber auch gerade die zweiten Komponenten interessant, weil die Hauptkomponente sowieso klar ist (Taxonomiesysteme, klin. Psych mit Schwere als principal component, aber erst die übrigen Restkomponenten sind für die Intervention interessant)
- Maßnahme, wenn Multikollinearität bei Regressionen Probleme macht.
- Generell bei multivariaten Modellen, wenn zu viele Variablen im Spiel sind.
- Inhaltliche Benennung der neu gefundenen Komponenten.
(Forschungs-)Fragen
Anzahl der Faktoren
Natur der Faktoren (interpretierbar?)
Wichtigkeit von Lösungen und Faktoren (u. a. Grad der Aufklärung im Verhältnis zur Anzahl der Faktoren)
Theorie in Faktorstruktur (lässt sich eine theoretisch begründete Faktorenstruktur finden?)
Schätzung der Faktorscores (und ihre Aussagekraft)
Begriffe und Äquivalenzen der Begriffe in R und Statistica
Faktorladungen
Koeffizienten/Parameter für jede Variable, die ausdrücken, welchen Einfluss die Variable auf die Bildung des Faktors hat.
In PCA wenn von der Korrelationsmatrix aus gerechnet wurde: Korrelation der Variablen mit den Faktorwerten (Werte der Personen in diesem Faktor).
Auch berechenbar über die Multiplikation der Loadings (Eigenvektor) mit der Standardabweichung des jeweiligen Faktors.
In Statistica zu finden unter Faktorkoordinaten der Variablen.
Faktorwerte
Parameter der Vpn.
Werte der Vpn in dem jeweiligen Faktor.
In R ergebnisobjekt$scores.
In Statistica Faktorwerte genannt.
Berechnung:
Eigenwerte der Hauptkomponenten
Eigenwert ist Parameter der Faktoren. Wurzel(Eigenwert) ist Standardabweichung des Faktors.
Eigenwert ist die Summe der quadrierten Ladungen eines Faktors (Faktorladungen) über alle Variablen.
Eigenwert ist die Varianz dieses Faktors.
Da die Gesamtvarianz der Variablen auf 1 gesetzt wird ist der Eigenwert zugleich der Anteil, den der Faktor an der Gesamtvarianz der beobachteten Variablen erklärt.
Die Eigenwerte sind die quadrierten Standardabweichungen der Hauptkomponenten, die R im Summary zur PCA ausgibt (ergebnisobjekt$sdev).
In der PCA ist die Gesamtsumme der Eigenwerte = der Menge der Hauptkomponenten. Der Mittelwert der Eigenwerte ist also 1.
Eigenvektor - Loadings
Statistica-Ergebnisdialog: Variablen | Eigenvektor entspricht R-Loadings ergebnisobjekt$loadings
Die Summe der quadrierten Loadings über alle Variablen hinweg ergibt 1.
Mit Hilfe der Eigenvektoren können die vorhergesagten Werte (Faktorwerte) errechnet werden.
Kommunalität
Parameter der Variablen. Die Summe der quadrierten Ladungen einer Variablen auf allen Faktoren ergibt die Varianz dieser Variablen, die durch die Faktoren gemeinsam erklärt wird. Diese Größe wird als Kommunalität h^2j einer Variablen j bezeichnet.
Bemerkungen zu Statistica
zwei Menus zu PCA
PCA kann aufgerufen werden unter "Statistik | Multivariate explorative Techniken | Hauptkomponenten und Klassifikationsanalyse" (eher zur Erstorientierung und zur Lage der Variablen und der Vpn im Faktorraum)
als auch unter "Statistik | Multivariate explorative Techniken | Faktoranalyse"
Im Faktoranalyse-Dialog kann auch eine PCA angefordert werden, mit und ohne Rotation und der Ergebnisdialog ist eher auf die psychologisch gängigen Parameter und Kennwerte ausgelegt. Allerdings gibt es hier keinen Screeplot und keine erweiterten Exportmöglichkeiten.
Korrelationsmatrix:
Ergebnisdialog | desk. Statistik | Korrelationsmatrix
auch die inverse und Speichermöglichkeit.
in PCA bietet Statistica kein Einlesen einer Korrelationsmatrix an, in FA schon
Loadings:
In Statistica: Faktorkoordinaten der Variablen
auch unter: Faktoren/Variablen-Korrelation (bei Korrelationsmatrix als Ausgangsmatrix gleich Faktorkoordinaten der Variablen)
Korr(Faktorwerte/Scores Vpn mit Variablen)
Scores:
in Statistica Faktorwerte.
individuelle Werte der Vpn auf dem jeweiligen Faktor
Linearkombination
können gespeichert werden (mit den anderen Variablen). Wichtig für weitere Berechnungen.
Kommunalitäten
in Statistica: Variablen | Kommunalitäten(cosinus^2)
Tabelle zeigt Kommunalitäten für die jeweilige Anzahl der Faktoren, also ist letzte Spalte die relevante
R2, das in der Kommunalitätentabelle gezeigt wird, ist das multiple R2 das man erhält, wenn man die Variable durch eine Linearkombination aller anderen Variablen erklären lässt (SMC). Dieser Wert geht oft als Kommunalitätenschätzer in die Eingangsmatrix bei FA (reduzierte Korrelationsmatrix).
Rotation
bietet Statistica nur in FA, nicht für PCA
hier gibt es aber auch einen Hauptkomponenten-Analyse-Teil (mit Rotationsmöglichkeit)
der Output ist hier auch spezifischer und verständlicher
[Fehler bei Varianzanteilen nach Rotation, korr. Eigenwerte stimmen]
Datenfiles
Kopfdaten
Kopfhöhe (in mm) der ersten beiden Söhne von 25 Familien. Zwei Variablen.
http://www.psych.uni-goettingen.de/mat/mv/everitt-head.txt
d.h <- read.delim(file="http://134.76.136.156/mat/pca_head.txt") d.h fam hlfs hlss 1 1 191 179 2 2 195 201 3 3 181 185 4 4 183 188 5 5 176 171 ...
Verbrechensraten
Verbrechensraten in den US-Staaten nach Verbrechenstyp getrennt.
http://www.psych.uni-goettingen.de/mat/mat/everitt-crime.txt
Version wenn Statistica zickt:
http://www.psych.uni-goettingen.de/mat/mv/pca_crime.sta
d.head <- read.delim(file="http://134.76.136.156/mat/pca_crime.txt") state murder rape robbery assault burglary theft vehicules 1 ME 2.0 14.8 28 102 803 2347 164 2 NH 2.2 21.5 24 92 755 2208 228 3 VT 2.0 21.8 22 103 949 2697 181 4 MA 3.6 29.7 193 331 1071 2189 906 5 RI 3.5 21.4 119 192 1294 2568 705 ...
Itemdaten
15 Items, 100 Vpn
Quelle
http://www.psych.uni-goettingen.de/mat/mv/werner-fa.txt
http://www.psych.uni-goettingen.de/mat/mv/werner-fa-komma.txt
items <- read.delim(file="http://www.psych.uni-goettingen.de/mat/mv/werner-fa.txt") V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 1 2.0285 -1.184 -0.291 -1.013 -0.313 0.365 0.417 2.067 0.8998 0.5628 -0.989 -0.741 -0.685 -1.679 -0.0966 2 0.3391 0.511 1.133 -0.728 0.131 -0.246 -0.794 1.020 0.5106 0.1833 -0.833 -0.499 1.089 1.143 0.1015 3 1.1572 1.774 1.485 1.201 0.303 1.028 1.185 0.451 0.5758 0.2011 -1.799 0.326 -0.495 0.217 1.1627 4 0.0789 0.498 0.782 2.425 -0.345 -1.345 -1.189 -0.958 1.3416 0.0694 -0.134 0.727 0.315 -0.494 -0.7410 5 -0.2642 1.149 1.462 -0.113 0.230 -0.559 -0.528 -0.470 0.0608 0.3085 -0.854 -0.833 -1.829 -0.415 -0.5332 ...
Ein Beispiel: Erfassung von Komponenten Emotionaler Intelligenz
Der Datensatz (erfundene Daten)
http://www.psych.uni-goettingen.de/mat/mv/virtual-ei.txt
Die Items sind:
i1 Ich denke über meine Gefühle nach. i2 Ich kann meine Gefühle benennen. i3 Ich schenke meinen Gefühlen Aufmerksamkeit. i4 Ich bin mir im unklaren darüber, was ich fühle. i5 Ich beschäftige mich mit meinen Gefühlen. i6 Ich habe Schwiereigkeiten, meine Gefühle zu beschreiben. i7 Ich denke darüber nach, wie ich mich fühle. i8 Ich weiß, was ich fühle. i9 Ich beobachte meine Gefühle. i10 Ich habe Schwierigkeiten, meinen Gefühlen einen Namen zu geben. i11 Ich ache darauf, wie ich mich fühle. i12 Ich bin mir unsicher, was ich eigentlich fühle.