Codierung
Dummy-Codierung
Übersetzung von binären, nominalskalierten (oder rangskalierten) Prädiktoren mit r Abstufungen (Faktorstufen) in r-1 Dummy-Variablen, die die Berechnung varianzanalytischer Effekte in MR möglich machen.
Statistikpakete funktionieren so.
Referenzkodierung (dummy-coding, treatment-coding)
sinnvoll bei Vergleich mit einer Referenzgruppe (z. B. Kontrollgruppe)
1 falls Kategorie k mit k = 1, ..., K−1 vorliegt
x(k) = 0 sonst
Konstante (ß0) ist Erwartungswert in der Referenzgruppe. ßi (Gewicht von xi) ist Unterschied der Gruppe ai zu Referenzgruppe. Test ßi = 0 prüft diesen Unterschied.
Effektkodierung
1 falls Kategorie k mit k = 1, . . . , K − 1 vorliegt
x(k) = −1 falls Referenzkategorie K vorliegt
0 sonst
Vergleich mit dem Mittelwert über alle Kategorien
Die Effektkodierung eignet sich, wenn Änderungen vom Mittelwert über alle Kategorien interessieren (ANOVA).
Kontrastkodierung
Es werden ausschließlich 1 und -1 als Kontrast-Koeffizienten verwendet. Die Kontrast-Koeffizienten müssen sich über die Faktorstufen hinweg zu 0 aufaddieren. Die Dummy-Variablen kontrastieren verschiedene Faktorstufen-Kombinationen.
yi =β0 +β(1)x(1)i +β(2)x(2)i +...+β(K−1)x(K−1)i +εi
Abh ̈angig von der Kodierung werden die Effekte β0,β(1),...,β(K−1) wie folgt gesch ̈atzt und interpretiert:
Dummykodierung:
βˆ0 entspricht dem Mittelwert in der Referenzkategorie. Die Effekte βˆ(1),...,βˆ(K−1) werden im Vergleich zur Referenzkategorie interpretiert.
Effektkodierung:
βˆ0 entspricht dem Durchschnitt der Mittelwerte aus allen Kategorien 1,...,K. Die Effekte βˆ(1),...,βˆ(K−1) werden im Vergleich zu diesem mittleren Wert interpretiert.
Wann ist welche Kodierung sinnvoll?
Die Art der Kodierung richtet sich nach der jeweiligen inhaltlichen Fragestellung.
Die Dummykodierung eignet sich beispielsweise, wenn in der Medizin eine bisherige Behandlung mit verschiedenen neuen Behandlungen verglichen wird.
Die Effektkodierung eignet sich, wenn A ̈nderungen vom Mittelwert u ̈ber alle Kategorien interessieren.
Beispiel 4 Faktorstufen (a1..a4) => drei Dummy-Variablen (x1...x3)
reference | effect | contrast | |||||||
pred | x1 | x2 | x3 | x1 | x2 | x3 | x1 | x2 | x3 |
---|---|---|---|---|---|---|---|---|---|
a1 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 1 |
a2 | 0 | 1 | 0 | 0 | 1 | 0 | 1 | -1 | -1 |
a3 | 0 | 0 | 1 | 0 | 0 | 1 | -1 | 1 | -1 |
a4 | 0 | 0 | 0 | -1 | -1 | -1 | -1 | -1 | 1 |
U = ß0 + ß1x1 + ß2x2 + b3x3
reference-coding: ß0 is constant, ßi differences of group ai to reference group
effect-coding: ß0 is factor-mean (over all factor levels), ßi differences of group ai to ß0
contrast-coding: ß0 gewichteter Erwartungswert, ßi Beitrag des Kontrastes zur Varianzaufklärung
Beispiel 2x2 Design
Faktor A | Faktor B | c1 | c2 | c3 |
---|---|---|---|---|
1 | 1 | -1 | -1 | 1 |
1 | 2 | -1 | 1 | -1 |
2 | 1 | 1 | -1 | -1 |
2 | 2 | 1 | 1 | 1 |
c1 kodiert Haupteffekt A
c2 kodiert Haupteffekt B
c3 kodiert Interaktion A * B
Referenzen
Kontraste in R:
http://www.ats.ucla.edu/stat/r/library/contrast_coding.htm
http://www.ats.ucla.edu/stat/r/modules/dummy_vars.htm
Coding Scheme | Comparisons made |
Dummy Coding | Compares each level to the reference level, intercept being the cell mean of the reference group |
Simple Coding | Compares each level to the reference level, intercept being the grand mean |
Deviation Coding | Compares each level to the grand mean |
Orthogonal Polynomial Coding | Orthogonal polynomial contrasts |
Helmert Coding | Compare levels of a variable with the mean of the subsequent levels of the variable |
Reverse Helmert Coding | Compares levels of a variable with the mean of the previous levels of the variable |
Forward Difference Coding | Compares adjacent levels of a variable (each level minus the next level) |
Backward Difference Coding | Compares adjacent levels of a variable (each level minus the prior level) |
User-Defined Coding | User-defined contrast |