missing_data

Missing Data - fehlende Daten

Fehlende Daten sind in vielerlei Hinsicht ein Problem:

Verlust von Beobachtungen, "nur" weil ein Teil der Daten fehlt

nicht vergleichbare statistische Berechnungen, da aufgrund fehlender Daten Beobachtungen, je nach verwendeter Variablenkombination auftauchen oder ausgeschlossen werden. Die Berechnungen testen dann also teilweise unterschiedliche Stichproben.

beim Ersetzen von fehlenden Daten generiert man immer in irgendeiner Weise Daten. Das kann immer nur mehr oder weniger plausibel geschehen und sollte auf jeden Fall nur in sehr geringem Umfang passieren.

Strategie

Eine mögliche auswertungstechnische Strategie im Umgang mit fehlenden Werten ist, die Auswahl der Beobachungen (Vpn), die in die statistische Auswertung eingehen sollen, an eine bestimmte Ausprägung einer neu generierten Variable zu binden. Dies könnte eine z. B. eine "1" in einer Variable "enter" sein. Für alle Beobachtungen, für die bestimmte Ausschlusskriterien erfüllt sind, z. B. eine bestimmte Menge von fehlenden Werten oder auch ein einziger Wert in einer Schlüsselvariable würde man dann den Wert dieser Variable auf "0" setzen. Dies kann man natürlich auch aus allen möglichen anderen Gründen machen, z. B. irgendwelche Unregelmäßigkeiten bei der Datenerhebung etc.

Statistica

Statistica bietet einige integrierte Möglichkeiten für den Umgang mit fehlenden Werten:

Möglichkeit: Ausschluss von Variablen/Beobachtungen beim Überschreiten bestimmter Prozentsätze

Neue Datentabelle bilden nach maximalen Prozentsätzen für fehlende Werte, entweder pro Variable oder pro Beobachtung bzw. für Kombinationen aus beiden.

Daten | Daten filtern/umcodieren | unvollständige Daten filtern

Unter der Schaltfläche "Variablen" werden die Variablen ausgewählt, für die die fehlende-Werte-Prüfung erfolgen soll. Unter der Schaltfläche "Fälle" können bestimmte Beobachtungen für die Prüfung ausgewählt werden, z. B. in Abhängigkeit von einer Gruppenzgehörigkeit.

Unter Ausgabe im unteren Teil des Dialoges gestaltet man die nach obigen Regeln neu erzeugte Datentabelle. Variablen bzw. Beobachtungen, für die die im oberen Teil festgelegten Prozentsätze überschritten werden, werden nicht in die neu erzeugte Datentabelle mit aufgenommen.

Möglichkeit: Automatisiertes Ersetzen von fehlenden Werten

Daten | Daten filtern/umcodieren | Missing Data bearbeiten

Nach der Auswahl der Variablen für die Korrektur (Schaltfläche "Variaben") kann man z. B. im Feld "Umkodierungs-Aktion" den globalen Mittelwert der Variablen an Stelle des fehlenden Wertes einsetzen lassen. Möglich ist es auch, andere fixe Werte an Stelle des fehlenden Wertes einsetzen zu lassen.

Möglichkeit: Automatisches Ersetzen durch den globalen Mittelwert der Variablen

Daten | Daten filtern/umcodieren | Missing Data ersetzen

Achtung: Die Datentabelle wird modifiziert und keine neue angelegt

Möglichkeit über Batch-Transformationen bzw. Tabellenformel

wie oben unter Strategie erklärt: Eine neue Variable bilden und diese für die Auswahl der Beobachtungen benutzen

Daten | Formeln für Batch mit Transformationen

enter = iif(isMD(pre) or isMD(post) or isMD(fu1) or isMD(fu2); 0; 1)

Auswahl von Beobachtungen nach Bedingung (z. B. Teilstichprobe ohne Missings in relevanten Variablen)

Daten | Teilbereich

Unter Schaltfläche Fälle Häkchen Auswahlbedingung setzen und Häkchen an "Teilmenge definiert durch" und eine entsprechende Bedingung formulieren. Hier z. B. enter = 1

R

für R sei verwiesen auf:

http://kiwi.uni-psych.gwdg.de/r