PCA

Principle Component Analysis (PCA) - Hauptkomponentenanalyse

 

Modul "Multivariate Statistik": Principal Component Analysis (PCA)

Uwe Mattler, Peter Zezula

Ziel ist es, PCA berechnen und interpretieren zu lernen.

Organisatorisches

  • -

Das R-Tutorial dazu.

PCA

Zweck

Beschreiben der Varianz einer Menge korrelierter Variablen durch wenige unkorrelierte Variablen (Komponenten). Komponenten geordnet nach 'Wichtigkeit' (Anteil an erklärter Varianz).

  • Reduktion vieler Maße auf wenige (einen) aussagefähige Werte (Indices).
  • Bei sehr vielen Variablen: Weiterrechnen mit weniger Variablen die einen substanziellem Anteil der Varianz erklären.
  • Häufig konzentriert sich die Aufmerksamkeit auf die erste, wichtigste Komponente, die den höchsten Anteil an Varianz erklärt.
  • Teilweise sind aber auch gerade die zweiten Komponenten interessant, weil die Hauptkomponente sowieso klar ist (Taxonomiesysteme, klin. Psych mit Schwere als principal component, aber erst die übrigen Restkomponenten sind für die Intervention interessant)
  • Maßnahme, wenn Multikollinearität bei Regressionen Probleme macht.
  • Generell bei multivariaten Modellen, wenn zu viele Variablen im Spiel sind.
  • Inhaltliche Benennung der neu gefundenen Komponenten.

(Forschungs-)Fragen

Anzahl der Faktoren
Natur der Faktoren (interpretierbar?)
Wichtigkeit von Lösungen und Faktoren (u. a. Grad der Aufklärung im Verhältnis zur Anzahl der Faktoren)
Theorie in Faktorstruktur (lässt sich eine theoretisch begründete Faktorenstruktur finden?)
Schätzung der Faktorscores (und ihre Aussagekraft)

Begriffe und Äquivalenzen der Begriffe in R und Statistica

Faktorladungen

Koeffizienten/Parameter für jede Variable, die ausdrücken, welchen Einfluss die Variable auf die Bildung des Faktors hat.
In PCA wenn von der Korrelationsmatrix aus gerechnet wurde: Korrelation der Variablen mit den Faktorwerten (Werte der Personen in diesem Faktor).
Auch berechenbar über die Multiplikation der Loadings (Eigenvektor) mit der Standardabweichung des jeweiligen Faktors.

In Statistica zu finden unter Faktorkoordinaten der Variablen.

Faktorwerte

Parameter der Vpn.
Werte der Vpn in dem jeweiligen Faktor.
In R ergebnisobjekt$scores.
In Statistica Faktorwerte genannt.
Berechnung:

Eigenwerte der Hauptkomponenten

Eigenwert ist Parameter der Faktoren. Wurzel(Eigenwert) ist Standardabweichung des Faktors.
Eigenwert ist die Summe der quadrierten Ladungen eines Faktors (Faktorladungen) über alle Variablen.
Eigenwert ist die Varianz dieses Faktors.
Da die Gesamtvarianz der Variablen auf 1 gesetzt wird ist der Eigenwert zugleich der Anteil, den der Faktor an der Gesamtvarianz der beobachteten Variablen erklärt.
Die Eigenwerte sind die quadrierten Standardabweichungen der Hauptkomponenten, die R im Summary zur PCA ausgibt (ergebnisobjekt$sdev).
In der PCA ist die Gesamtsumme der Eigenwerte = der Menge der Hauptkomponenten. Der Mittelwert der Eigenwerte ist also 1.

Eigenvektor - Loadings

Statistica-Ergebnisdialog: Variablen | Eigenvektor entspricht R-Loadings ergebnisobjekt$loadings
Die Summe der quadrierten Loadings über alle Variablen hinweg ergibt 1.
Mit Hilfe der Eigenvektoren können die vorhergesagten Werte (Faktorwerte) errechnet werden.

Kommunalität

Parameter der Variablen. Die Summe der quadrierten Ladungen einer Variablen auf allen Faktoren ergibt die Varianz dieser Variablen, die durch die Faktoren gemeinsam erklärt wird. Diese Größe wird als Kommunalität h^2j einer Variablen j bezeichnet.

 

Bemerkungen zu Statistica

zwei Menus zu PCA

PCA kann aufgerufen werden unter "Statistik | Multivariate explorative Techniken | Hauptkomponenten und Klassifikationsanalyse" (eher zur Erstorientierung und zur Lage der Variablen und der Vpn im Faktorraum)

als auch unter "Statistik | Multivariate explorative Techniken | Faktoranalyse"

Im Faktoranalyse-Dialog kann auch eine PCA angefordert werden, mit und ohne Rotation und der Ergebnisdialog ist eher auf die psychologisch gängigen Parameter und Kennwerte ausgelegt. Allerdings gibt es hier keinen Screeplot und keine erweiterten Exportmöglichkeiten.

Korrelationsmatrix:

Ergebnisdialog | desk. Statistik | Korrelationsmatrix
auch die inverse und Speichermöglichkeit.
in PCA bietet Statistica kein Einlesen einer Korrelationsmatrix an, in FA schon

Loadings:

In Statistica: Faktorkoordinaten der Variablen
auch unter: Faktoren/Variablen-Korrelation (bei Korrelationsmatrix als Ausgangsmatrix gleich Faktorkoordinaten der Variablen)
Korr(Faktorwerte/Scores Vpn mit Variablen)

Scores:

in Statistica Faktorwerte.
individuelle Werte der Vpn auf dem jeweiligen Faktor
Linearkombination
können gespeichert werden (mit den anderen Variablen). Wichtig für weitere Berechnungen.

Kommunalitäten

in Statistica: Variablen | Kommunalitäten(cosinus^2)
Tabelle zeigt Kommunalitäten für die jeweilige Anzahl der Faktoren, also ist letzte Spalte die relevante
R2, das in der Kommunalitätentabelle gezeigt wird, ist das multiple R2 das man erhält, wenn man die Variable durch eine Linearkombination aller anderen Variablen erklären lässt (SMC). Dieser Wert geht oft als Kommunalitätenschätzer in die Eingangsmatrix bei FA (reduzierte Korrelationsmatrix).

Rotation

bietet Statistica nur in FA, nicht für PCA
hier gibt es aber auch einen Hauptkomponenten-Analyse-Teil (mit Rotationsmöglichkeit)
der Output ist hier auch spezifischer und verständlicher

[Fehler bei Varianzanteilen nach Rotation, korr. Eigenwerte stimmen]

Datenfiles

Kopfdaten

Kopfhöhe (in mm) der ersten beiden Söhne von 25 Familien. Zwei Variablen.
http://www.psych.uni-goettingen.de/mat/mv/everitt-head.txt

d.h <- read.delim(file="http://134.76.136.156/mat/pca_head.txt")
d.h

   fam hlfs hlss
1    1  191  179
2    2  195  201
3    3  181  185
4    4  183  188
5    5  176  171
...

Verbrechensraten

Verbrechensraten in den US-Staaten nach Verbrechenstyp getrennt.
http://www.psych.uni-goettingen.de/mat/mat/everitt-crime.txt
Version wenn Statistica zickt:
http://www.psych.uni-goettingen.de/mat/mv/pca_crime.sta

d.head <- read.delim(file="http://134.76.136.156/mat/pca_crime.txt")

  state murder rape robbery assault burglary theft vehicules
1    ME    2.0 14.8      28     102      803  2347       164
2    NH    2.2 21.5      24      92      755  2208       228
3    VT    2.0 21.8      22     103      949  2697       181
4    MA    3.6 29.7     193     331     1071  2189       906
5    RI    3.5 21.4     119     192     1294  2568       705
...

Itemdaten

15 Items, 100 Vpn

Quelle
http://www.psych.uni-goettingen.de/mat/mv/werner-fa.txt

http://www.psych.uni-goettingen.de/mat/mv/werner-fa-komma.txt

items <- read.delim(file="http://www.psych.uni-goettingen.de/mat/mv/werner-fa.txt")

       V1     V2     V3     V4     V5     V6     V7     V8     V9    V10    V11    V12    V13    V14     V15
1  2.0285 -1.184 -0.291 -1.013 -0.313  0.365  0.417  2.067 0.8998 0.5628 -0.989 -0.741 -0.685 -1.679 -0.0966
2  0.3391  0.511  1.133 -0.728  0.131 -0.246 -0.794  1.020 0.5106 0.1833 -0.833 -0.499  1.089  1.143  0.1015
3  1.1572  1.774  1.485  1.201  0.303  1.028  1.185  0.451 0.5758 0.2011 -1.799  0.326 -0.495  0.217  1.1627
4  0.0789  0.498  0.782  2.425 -0.345 -1.345 -1.189 -0.958 1.3416 0.0694 -0.134  0.727  0.315 -0.494 -0.7410
5 -0.2642  1.149  1.462 -0.113  0.230 -0.559 -0.528 -0.470 0.0608 0.3085 -0.854 -0.833 -1.829 -0.415 -0.5332
...

Ein Beispiel: Erfassung von Komponenten Emotionaler Intelligenz

Der Datensatz (erfundene Daten)
http://www.psych.uni-goettingen.de/mat/mv/virtual-ei.txt

Die Items sind:

i1	Ich denke über meine Gefühle nach.
i2	Ich kann meine Gefühle benennen.
i3 	Ich schenke meinen Gefühlen Aufmerksamkeit.
i4	Ich bin mir im unklaren darüber, was ich fühle.
i5	Ich beschäftige mich mit meinen Gefühlen.
i6	Ich habe Schwiereigkeiten, meine Gefühle zu beschreiben.
i7	Ich denke darüber nach, wie ich mich fühle.
i8	Ich weiß, was ich fühle.
i9	Ich beobachte meine Gefühle.
i10	Ich habe Schwierigkeiten, meinen Gefühlen einen Namen zu geben.
i11	Ich ache darauf, wie ich mich fühle.
i12	Ich bin mir unsicher, was ich eigentlich fühle.