Einleitung Das Paket ggplot2 ist das umfangreichste und am weitesten verbreitete Paket zur Grafikerstellung in R. Seine Beliebtheit liegt vor allem an zwei Dingen: Es ist sehr eng mit der kommerziellen Seite von RStudio verwoben (Autor ist auch hier Hadley Wickham) und es folgt stringent einer “Grammatik der Grafikerstellung”. Aus dem zweiten Punkt leitet sich auch sein Name ab: das “gg” steht für “Grammar of Graphics” und geht auf das gleichnamige Buch von Leland Wilkinson zurück, in dem auf 700 kurzen Seiten eine grammatikalische Grundstruktur für das Erstellen von Grafiken zur Datendarstellung hergeleitet und detailliert erklärt wird.
Der Likelihood-Ratio-Test (\(\chi^2\)-Differenzentest) vergleicht die Likelihoods zweier Modelle und somit implizit eigentlich die Kovarianzmatrizen (und Mittelwerte). In Lehrbüchern steht häufig der \(\chi^2\)-Wert ist stichprobenabhängig und wächst mit der Stichprobengröße, was ebenfalls als Grund für die Fit-Indizes genannt wird. Das ist allerdings nur teilweise richtig, denn der \(\chi^2\)-Wert ist nur für Modelle stichprobenabhängig, in welchen die \(H_0\)-Hypothese nicht gilt. In einigen Lehrbüchern steht zudem die Formel für den \(\chi^2\)-Wert wie folgt: Wir definieren zunächst die sogenannte Fit-Funktion \(F_{ML}\) (diese wurde bereits in der Sitzung zur CFA erwähnt), welche die Differenz zwischen der Kovarianzmatrix der Daten sowie der modellimplizierten Kovarianzmatrix quantifiziert (für die Formeln siehe gerne auch bspw.
In einer Multi-Sample Analysis werden in der Regel verschiedene Invarianz (also Gleichheiten über die Gruppen) getestet. Diese werden hier noch einmal wiederholt.
Invarianzstufen Die Invarianzstufen sind nach Einschränkungen der Modellparameter sortiert und werden auch (fast) immer in dieser Reihenfolge sukzessive getestet: konfigurale, metrische (schwache), skalare (starke), strikte und vollständige Invarianz. Wir gehen so vor, wie dies per Default im R-Paket lavaan durchgeführt wird. Wir gehen hierzu davon aus, dass die Skalierung für die Varianzen auf den ersten Faktorladungen (\(\lambda=1\)) liegt und dass die Skalierung für die Mittelwerte (Interzepte) auf dem latenten Mittelwert liegt (\(\kappa=0\)).
Erweiterte Plots mit ggplot2 Weil auch ich mich in dieser Phase der eingeschränkten Freizeitmöglichkeiten beschäftigen muss, habe ich im Folgenden ein paar zusätzliche Abbildungen erstellt, die die Grundlagen aus dem Post zu ggplot2 erweitern. Für die Grafiken hier benutze ich den gleichen Datensatz, weswegen ich hier das Erstellen und Umstrukturieren der Daten hier nicht noch einmal explizit behandele. Für die Abbildungen unten gehen wir also davon aus, dass die aktuellen COVID-Zahlen im aggregierten langen Format vorliegen.
Kernfragen dieses Beitrags Was ist R und was ist RStudio? Was ist die Konsole und was ist die Syntax? Wie kann ich Syntax ausführen? Wie sehen Ergebnisse von Befehlen in R aus? Wie kann ich R als Taschenrechner und für logische Vergleiche benutzen? Was sind Funktionen und wie sind sie aufgebaut? Wie bekomme ich in R Hilfe? Was sind Objekte? Was ist das Environment? Was sind Vektoren und welche unterschiedlichen Arten gibt es?