FA

Modul "Multivariate Statistik": Faktoranalyse

 

Ziel ist es, Faktoranalysen berechnen und interpretieren zu lernen.

Das R-Tutorial dazu.

Faktoranalyse

Ein paar prinzipielle Bemerkungen

Die FA hat inhaltlich eine andere Zielsetzung: Auffinden bzw. erfassen latenter Konstrukte, die nicht direkt erfassbar sind.

Alles für die PCA Gesagte behält seine Gültigkeit. Man kann die PCA als einen Spezialfall der FA auffassen.

Der Kernunterschied zur PCA ist, das Restvarianzen bei den Variablen zugelassen werden (uniquenesses).
Die Gesamtvarianz der Variable wird zerlegt in die gemeinsame Varianz (die auf den zugrunde liegenden Faktor zurückgeht), die spezifische Varianz (die spezifisch für dieses Item ist z. B. eine ganz bestimmte Unterkomponente des Konstruktes (z. B. Intelligenz) erfasst) und die Messfehlervarianz, die im psychologischen Umfeld normal ist.

Im Vergleich zur FA versucht versucht die PCA grundsätzlich die Gesamtvarianz zu erklären, was im psychologischen Umfeld meist inadäquat ist. Daher werden die PCA Lösungen oft auch unstabiler als die FA Lösungen, beispielsweise bei Kreuzvalidierungen.

Rotation der gefundenen Struktur um eine möglichst gute Interpretation der Faktoren zu ermöglichen.

Es werden, je nach Rotationstyp, auch Abhängigkeiten zwischen den Faktoren zugelassen.

Parallelanalyse

Ansatz für die Wahl der Faktorzahl

Simulation einer großen Anzahl von Datensätzen mit derselben Anzahl von Vpn und Variablen, die aber unkorreliert sind. Auch hier gibt es Eigenwerte über 1. Mittlerer Eigenwertverlauf hieraus ist Vergleichsverlauf.

Implementiert in R, (bisher) nicht in Statistica oder SPSS.

Begriffe und Äquivalenzen der Begriffe in R und Statistica

Faktorladungen

Koeffizienten für jede Variable, die ausdrücken, welchen Einfluss die Variable auf die Bildung des Faktors hat.
In PCA wenn von der Korrelationsmatrix aus gerechnet wurde: Korrelation der Variablen mit den Faktorwerten (Werte der Personen in diesem Faktor).
Auch berechenbar über die Multiplikation der Loadings (Eigenvektor) mit der Standardabweichung des jeweiligen Faktors.

Faktorwerte

Werte der Vpn in dem jeweiligen Faktor.
In R ergebnisobjekt$scores.
In Statistica Faktorwerte genannt.
Berechnung:

Eigenwerte der Hauptkomponenten

Eigenwert ist die Summe der quadrierten Ladungen eines Faktors (Faktorladungen) über alle Variablen.
Eigenwert ist die Varianz dieses Faktors.
Da die Gesamtvarianz der Variablen auf 1 gesetzt wird ist der Eigenwert zugleich der Anteil, den der Faktor an der Gesamtvarianz der beobachteten Variablen erklärt.
Die Eigenwerte sind die quadrierten Standardabweichungen der Hauptkomponenten, die R im Summary zur PCA ausgibt (ergebnisobjekt$sdev).
In der PCA ist die Gesamtsumme der Eigenwerte = der Menge der Hauptkomponenten. Der Mittelwert der Eigenwerte ist also 1.

Eigenvektor - Loadings

Statistica-Ergebnisdialog: Variablen | Eigenvektor entspricht R-Loadings ergebnisobjekt$loadings
Die Summe der quadrierten Loadings über alle Variablen hinweg ergibt 1.
Mit Hilfe der Eigenvektoren können die vorhergesagten Werte (Faktorwerte) errechnet werden.

Kommunalität

Parameter der Variablen. Die Summe der quadrierten Ladungen einer Variablen auf allen Faktoren ergibt die Varianz dieser Variablen, die durch die Faktoren gemeinsam erklärt wird. Diese Größe wird als Kommunalität h^2j einer Variablen j bezeichnet.

Einfachstruktur

Ziel der Rotation. Für alle Variablen soll erreicht werden, dass sie möglichst nur in einen Faktor hoch laden und in alle anderen Faktoren sehr niedrig. Hierdurch soll eine möglichst gute (einfache) Interpretation bzw. Benennung der Faktoren ermöglicht werden.

Reduzierte Korrelationsmatrix als Ausgangsmatrix bei FA

In die Diagonale kommen nicht, wie bei PCA, 1-en sondern Schätzer für die Kommunalitäten. Üblich sind die SMC (squared multiple correlations)

> cor(items)

          V1      V2     V3     V4     V5     V6     V7      V8    V9     V10       V11    V12     V13    V14    V15
V1  1.000000  0.3184 0.2550 0.3226 0.2996 0.1292 0.2066  0.1822 0.239  0.1171  0.000238 0.0116  0.0194 0.0877 0.1861
V2  0.318428  1.0000 0.4146 0.2599 0.3390 0.0313 0.0321  0.0264 0.147  0.1566 -0.042288 0.1692  0.0307 0.1024 0.1537
V3  0.255001  0.4146 1.0000 0.2825 0.2932 0.1279 0.1263  0.0669 0.260  0.1162  0.082244 0.2581  0.0347 0.2351 0.1166
V4  0.322598  0.2599 0.2825 1.0000 0.2885 0.1433 0.1949  0.0485 0.211  0.2375  0.127049 0.3164  0.2270 0.1864 0.1473
V5  0.299631  0.3390 0.2932 0.2885 1.0000 0.1467 0.2744  0.1533 0.384  0.3397  0.216931 0.2882  0.0993 0.1402 0.2200
V6  0.129239  0.0313 0.1279 0.1433 0.1467 1.0000 0.2222  0.3204 0.285  0.3555  0.028684 0.2760  0.0748 0.1720 0.1808
V7  0.206623  0.0321 0.1263 0.1949 0.2744 0.2222 1.0000  0.1585 0.284  0.3135  0.183127 0.0133  0.0220 0.2308 0.0993
V8  0.182156  0.0264 0.0669 0.0485 0.1533 0.3204 0.1585  1.0000 0.344  0.2120  0.085159 0.1164 -0.0126 0.1395 0.0792
V9  0.239318  0.1467 0.2599 0.2109 0.3845 0.2847 0.2839  0.3440 1.000  0.3626  0.125685 0.1918  0.1285 0.1005 0.2240
V10 0.117062  0.1566 0.1162 0.2375 0.3397 0.3555 0.3135  0.2120 0.363  1.0000 -0.097174 0.1908  0.0457 0.2130 0.1213
V11 0.000238 -0.0423 0.0822 0.1270 0.2169 0.0287 0.1831  0.0852 0.126 -0.0972  1.000000 0.1973  0.3105 0.1736 0.2827
V12 0.011632  0.1692 0.2581 0.3164 0.2882 0.2760 0.0133  0.1164 0.192  0.1908  0.197328 1.0000  0.2003 0.2810 0.3768
V13 0.019427  0.0307 0.0347 0.2270 0.0993 0.0748 0.0220 -0.0126 0.128  0.0457  0.310500 0.2003  1.0000 0.2948 0.2275
V14 0.087668  0.1024 0.2351 0.1864 0.1402 0.1720 0.2308  0.1395 0.101  0.2130  0.173594 0.2810  0.2948 1.0000 0.0215
V15 0.186114  0.1537 0.1166 0.1473 0.2200 0.1808 0.0993  0.0792 0.224  0.1213  0.282691 0.3768  0.2275 0.0215 1.0000

# Einsetzen der SMC
> items.cors.reduced <- cor(items)
> diag(items.cors.reduced) <- smc(items)
> 
> items.cors.reduced

          V1      V2     V3     V4     V5     V6     V7      V8    V9     V10       V11    V12     V13    V14    V15
V1  0.287448  0.3184 0.2550 0.3226 0.2996 0.1292 0.2066  0.1822 0.239  0.1171  0.000238 0.0116  0.0194 0.0877 0.1861
V2  0.318428  0.2925 0.4146 0.2599 0.3390 0.0313 0.0321  0.0264 0.147  0.1566 -0.042288 0.1692  0.0307 0.1024 0.1537
V3  0.255001  0.4146 0.2921 0.2825 0.2932 0.1279 0.1263  0.0669 0.260  0.1162  0.082244 0.2581  0.0347 0.2351 0.1166
V4  0.322598  0.2599 0.2825 0.2887 0.2885 0.1433 0.1949  0.0485 0.211  0.2375  0.127049 0.3164  0.2270 0.1864 0.1473
V5  0.299631  0.3390 0.2932 0.2885 0.3635 0.1467 0.2744  0.1533 0.384  0.3397  0.216931 0.2882  0.0993 0.1402 0.2200
V6  0.129239  0.0313 0.1279 0.1433 0.1467 0.2568 0.2222  0.3204 0.285  0.3555  0.028684 0.2760  0.0748 0.1720 0.1808
V7  0.206623  0.0321 0.1263 0.1949 0.2744 0.2222 0.2578  0.1585 0.284  0.3135  0.183127 0.0133  0.0220 0.2308 0.0993
V8  0.182156  0.0264 0.0669 0.0485 0.1533 0.3204 0.1585  0.2092 0.344  0.2120  0.085159 0.1164 -0.0126 0.1395 0.0792
V9  0.239318  0.1467 0.2599 0.2109 0.3845 0.2847 0.2839  0.3440 0.335  0.3626  0.125685 0.1918  0.1285 0.1005 0.2240
V10 0.117062  0.1566 0.1162 0.2375 0.3397 0.3555 0.3135  0.2120 0.363  0.3465 -0.097174 0.1908  0.0457 0.2130 0.1213
V11 0.000238 -0.0423 0.0822 0.1270 0.2169 0.0287 0.1831  0.0852 0.126 -0.0972  0.275067 0.1973  0.3105 0.1736 0.2827
V12 0.011632  0.1692 0.2581 0.3164 0.2882 0.2760 0.0133  0.1164 0.192  0.1908  0.197328 0.3710  0.2003 0.2810 0.3768
V13 0.019427  0.0307 0.0347 0.2270 0.0993 0.0748 0.0220 -0.0126 0.128  0.0457  0.310500 0.2003  0.2352 0.2948 0.2275
V14 0.087668  0.1024 0.2351 0.1864 0.1402 0.1720 0.2308  0.1395 0.101  0.2130  0.173594 0.2810  0.2948 0.2672 0.0215
V15 0.186114  0.1537 0.1166 0.1473 0.2200 0.1808 0.0993  0.0792 0.224  0.1213  0.282691 0.3768  0.2275 0.0215 0.2806

Datenfiles

Verbrechensraten

Verbrechensraten in den US-Staaten nach Verbrechenstyp getrennt.
http://134.76.136.156/mat/pca_crime.txt
Version wenn Statistica zickt:
http://134.76.136.156/mat/pca_crime.sta

d.head <- read.delim(file="http://134.76.136.156/mat/pca_crime.txt")

  state murder rape robbery assault burglary theft vehicules
1    ME    2.0 14.8      28     102      803  2347       164
2    NH    2.2 21.5      24      92      755  2208       228
3    VT    2.0 21.8      22     103      949  2697       181
4    MA    3.6 29.7     193     331     1071  2189       906
5    RI    3.5 21.4     119     192     1294  2568       705
...

Itemdaten

15 Items, 100 Vpn

Quelle
http://www.psych.uni-goettingen.de/mat/mv/werner-fa.txt

http://www.psych.uni-goettingen.de/mat/mv/werner-fa-komma.txt

items <- read.delim(file="http://www.psych.uni-goettingen.de/mat/mv/werner-fa.txt")

       V1     V2     V3     V4     V5     V6     V7     V8     V9    V10    V11    V12    V13    V14     V15
1  2.0285 -1.184 -0.291 -1.013 -0.313  0.365  0.417  2.067 0.8998 0.5628 -0.989 -0.741 -0.685 -1.679 -0.0966
2  0.3391  0.511  1.133 -0.728  0.131 -0.246 -0.794  1.020 0.5106 0.1833 -0.833 -0.499  1.089  1.143  0.1015
3  1.1572  1.774  1.485  1.201  0.303  1.028  1.185  0.451 0.5758 0.2011 -1.799  0.326 -0.495  0.217  1.1627
4  0.0789  0.498  0.782  2.425 -0.345 -1.345 -1.189 -0.958 1.3416 0.0694 -0.134  0.727  0.315 -0.494 -0.7410
5 -0.2642  1.149  1.462 -0.113  0.230 -0.559 -0.528 -0.470 0.0608 0.3085 -0.854 -0.833 -1.829 -0.415 -0.5332
...

Ein Beispiel: Erfassung von Komponenten Emotionaler Intelligenz (erfundene Daten)

Der Datensatz (erfundene Daten)
http://www.psych.uni-goettingen.de/mat/mv/virtual-ei.txt

Die Items sind:

i1	Ich denke über meine Gefühle nach.
i2	Ich kann meine Gefühle benennen.
i3 	Ich schenke meinen Gefühlen Aufmerksamkeit.
i4	Ich bin mir im unklaren darüber, was ich fühle.
i5	Ich beschäftige mich mit meinen Gefühlen.
i6	Ich habe Schwiereigkeiten, meine Gefühle zu beschreiben.
i7	Ich denke darüber nach, wie ich mich fühle.
i8	Ich weiß, was ich fühle.
i9	Ich beobachte meine Gefühle.
i10	Ich habe Schwierigkeiten, meinen Gefühlen einen Namen zu geben.
i11	Ich ache darauf, wie ich mich fühle.
i12	Ich bin mir unsicher, was ich eigentlich fühle.

Ein kommentiertes Beispiel in Statistica.