In den bisherigen Sitzungen zur multiplen Regression haben wir als Prädiktoren hauptsächlich intervallskalierte Variablen betrachtet. In einigen Beispielen ist aber z.B. das Geschlecht aufgetaucht. In diesem Beitrag gucken wir uns etwas genauer an, was passiert, wenn Prädiktoren nominalskaliert sind.
Hier wird es, wie immer auf Pandar, vor allem um die Umsetzung in R und die Interpretation von Ergebnissen gehen. Für eine etwas genauere Einleitung in Regression mit nominalskalierten (oder auch “kategorialen”) Prädiktoren, empfiehlt sich ein Blick in Kapitel 19.
Auf der folgenden Seite werden alle Datensätze aufgeführt, mit denen in den verschiedenen Tutorials auf pandaR gearbeitet wird. Die Datensätze sind alphabetisch sortiert und können teilweise direkt über diese Seite heruntergeladen werden. Hier eine Übersicht:
Beschreibung Direkter Download Achtsamkeit und Depression OSF Alkoholkonsum von Jugendlichen alc Arbeitsstress bei Call-Center-Mitarbeiter:innen StressAtWork Vergleich von Behandlungsformen Behandlungsform Die Big Five Persönlichkeitsdimensionen Big5 Interozeptive Aufmerksamkeit und Genauigkeit OSF Bildungsinvestitionen auf der Welt edu_exp Bullyingprävention bei Jugendlichen fairplayer Quasi-Experimentelle Therapiestudie CBTdata Depressivität Depression Effektivität der CBT bei Depression Teil des Pakets metafor Entwicklung der Weltbevölkerung WorldPopulation Fragebogendaten aus dem ersten Semester fb22 Gender, Drug, and Depression OSF Skalenwerte der Generic Conspiracist Beliefs Scale conspiracy Items der Generic Conspiracist Beliefs Scale) conspiracy_cfa Gewissenhaftigkeit und Medikamenteneinnahme Teil des Pakets metafor Internetintervention für psychische Störungen OSF Kooperationsbereitschaft von Geschwistern via Syntax erstellt Machiavellismus-Fragebogen mach Major Depression OSF Mehrdimensionaler Befindlichkeitsfragebogen mdbf Mental Health and Social Contact During the COVID-19 Pandemic OSF Naturverbundenheit nature Lesekompetenz in der PISA-Erhebung PISA2009 Parental Burnout OSF Hauptkomponentenanalyse PCA Psychisches Wohlbefinden von Individuen während des Lockdowns in Frankreich OSF Kulturelle Unterschiede in Korruptionsbestrafung OSF Schulleistungen Schulleistungen Therapieerfolg Therapy Titanic Titanic Traumatische Erlebnisse und psychische Störungen OSF Achtsamkeit und Depression (raw_data) Beschreibung Beim Datensatz stammt von Rubin (2020) und ist auf dem Open Science Framework zu finden.
Einleitung Das Paket ggplot2 ist das umfangreichste und am weitesten verbreitete Paket zur Grafikerstellung in R. Seine Beliebtheit liegt vor allem an zwei Dingen: Es ist sehr eng mit der kommerziellen Seite von RStudio verwoben (Autor ist auch hier Hadley Wickham) und es folgt stringent einer “Grammatik der Grafikerstellung”. Aus dem zweiten Punkt leitet sich auch sein Name ab: das “gg” steht für “Grammar of Graphics” und geht auf das gleichnamige Buch von Leland Wilkinson zurück, in dem auf 700 kurzen Seiten eine grammatikalische Grundstruktur für das Erstellen von Grafiken zur Datendarstellung hergeleitet und detailliert erklärt wird.
In den letzten Sitzungen haben wir uns ausführlicher mit dem Zusammenhang zwischen Variablen in Form von Korrelation und Regression beschäftigt. Nun möchten wir untersuchen, ob es einen Unterschied zwischen mehreren Gruppen hinsichtlich der Mittelwerte in einer Variablen gibt. Im letzten Semester haben Sie schon den t-Test kennen gelernt, mit dem Mittelwertsunterschiede zwischen zwei Gruppen untersucht werden können. Wenn wir nun mehr als zwei Gruppen miteinander vergleichen möchten, müssten wir mehrere t-Tests mit allen Kombinationen durchführen.
In den letzten beiden Sitzungen ging es darum Unterschiede zwischen Personen zu untersuchen, indem wir Mittelwertsunterschiede zwischen verschiedenen Gruppen von Personen geprüft haben (in englischsprachiger Literatur wird dies als between subjects ANOVA bezeichnet). In dieser Sitzung soll es darum gehen, Unterschiede innerhalb von Personen (im Englischen within subjects ANOVA) mithilfe der ANOVA mit Messwiederholung zu untersuchen. Diese Unterschiede können dabei z.B. dadurch entstehen, dass wir unterschiedliche Messzeitpunkte untersuchen. Die Messwiederholung muss nicht zwingend durch Zeit zustande kommen - andere Möglichkeiten der Messwiederholung sind z.
Modelloptimierung Bei der Regressionsanalyse hat die Modelloptimierung zum Ziel, ein Regresionsmodell zu verbessern - das heißt, möglichst viel Varianz der abhängigen Variable zu erklären. Dadurch wird die “Vorhersage” der abhängigen Variable genauer (die Streuung der Werte um die Regressionsgerade/-hyperebene ist kleiner).
Modelloptimierung bedeutet, ein Modell zu verbessern, durch:
Aufnehmen zusätzlicher, bedeutsamer Prädiktoren Ausschließen von Prädiktoren, die nicht zur Varianzaufklärung beitragen Ziel ist ein sparsames Modell, in dem
jeder enthaltene Prädiktor einen Beitrag zur Varianzaufklärung des Kriteriums leistet und kein wichtiger (= vorhersagestarker) Prädiktor vergessen wurde.
Übersicht und Vorbereitung In den letzten Sitzungen haben wir gesehen, wie wir ein Modell für eine Multiple Regression in R aufstellen und verschiedene Modelle gegeneinander testen können. Besonders bei der Nutzung von Inferenzstatistik wissen wir aber auch, dass genutzte statistische Verfahren häufig Voraussetzungen an die Daten mitbringen. Das Thema der heutigen Sitzung ist daher die Überprüfung von Voraussetzungen im Rahmen der Regressionsdiagnostik. Einige der aufgeführten Punkte könnten noch aus der einfachen linearen Regression bekannt sein, aber wir betrachten sie auch im Übertrag auf den hier vorliegenden multivariaten Fall.
Einleitung Sicher haben Sie in der Welt der Verschwörungstheorien mal gehört, dass die Anzahl der COVID-Erkrankungen mit der Anzahl der 5G-Tower zusammenhängt. Aber wussten Sie, dass auch der Konsum von Eiscreme und die Anzahl der Morde in New York oder die Anzahl von Nicolas-Cage-Filmauftritten mit der Anzahl weiblicher Redakteure beim Harvard Law Review positiv korreliert sind?1
Die Frage ist jedoch, ob mit den korrelativen Zusammenhängen der Beweis erbracht wurde, dass 5G-Strahlungen für COVID-Erkrankungen verantwortlich sind, der Eiskonsum zu einer erhöhten Mordrate führt oder die Anzahl der Filme, in denen Nicolas Cage mitspielt, einen Effekt auf die Frauenquote bei der Harvard Law Review hat.
Einleitung In der letzten Sitzung haben wir unter anderem Korrelationen zwischen zwei Variablen behandelt. Zur Wiederholung: Mithilfe einer Korrelation kann die Stärke des Zusammenhangs zwischen zwei Variablen quantifiziert werden. Dabei haben beide Variablen den gleichen Stellenwert, d.h. eigentlich ist es egal, welche Variable die x- und welche Variable die y-Variable ist. Wir haben außerdem Methoden kennengelernt, mit denen der Einfluss einer (oder mehrerer) Drittvariablen kontrolliert werden kann; die Partial- und Semipartialkorrelation.
Quiz 1: Wiederholung und ggplot2 Die Fragen zum Quiz bezüglich Wiederholung und ggplot2 stammen aus dem bereits im ersten Tutorial bearbeiteten Machiavellismusfragebogen. Sie können den Datensatz direkt aus dem Internet in ihren Workspace in R zu laden. Der funktionierende Befehl sieht so aus:
load(url("https://pandar.netlify.app/post/mach.rda")) Die hier verwendeten Daten stammen aus dem “Open-Source Psychometrics Project”, einer Online-Plattform, die eine Sammlung an Daten aus verschiedensten Persönlichkeitstests zur Verfügung stellt. Wir haben schon Modifikationen für Sie darin vorgenommen.
In der letzten Sitzung haben wir die einfaktorielle Varianzanalyse behandelt. Die spezifische Benennung als einfaktoriell verdeutlicht schon, dass wir hier ansetzen und Erweiterungen vornehmen können. In dieser Sitzung geht es vor allem um die zweifaktorielle Varianzanalyse. Ziel dieser Analyse ist es gleichzeitig Gruppenunterschiede auf mehreren (um genau zu sein 2 im zweifaktoriellen Fall) Variablen zu untersuchen und dabei zu überprüfen, ob Kombinationen von Gruppen besondere Auswirkungen haben. Für weitere Inhalte siehe bspw.
In diesem Block werden wir verschiedene Arten von Loops (Schleifen) kennenlernen und lernen, vertieft mit Funktionen zu arbeiten. Dieses Wissen wollen wir dann nutzen, um nochmals Power- bzw. Simulationsanalysen durchzuführen, welche wir in der Sitzung zu Simulationsstudien und Poweranalysen bereits kennengelernt haben. Vorab beschäftigen wir uns noch mit einigen Grundlagen zum Thema logische Abfragen.
Logische Abfragen und Bedingungen: if und else Im Prozess der Datenaufbereitung und -auswertung kommt man häufig an den Punkt, an dem ein bestimmter Befehl nur unter bestimmten Bedingungen ausgeführt werden soll, oder in dem abhängig von einer Bedingung unterschiedliche Aktionen ausgeführt werden sollen.
Einleitung und Datensatz In dieser Sitzung werden wir uns mit weiteren nichtlinearen Effekte in Regressionsmodellen beschäftigen. Diese Sitzung basiert zum Teil auf der Literatur aus Eid et al. (2017) Kapitel 19 (insbesondere 19.9).
Dazu verwenden wir zunächst den Datensatz aus der Übung des letzten Themenblockes. Der Beispieldatensatz enthält Daten zur Lesekompetenz aus der deutschen Stichprobe der PISA-Erhebung in Deutschland aus dem Jahr 2009. Sie können den im Folgenden verwendeten Datensatz “PISA2009.
Bisher hatten wir mittels Regressionsanalysen lineare Beziehungen modelliert. In der Sitzung zur quadratischen und moderierte Regresssion kamen dann im Grunde quadratische Effekte mit hinzu. Wir können unser Wissen über Regressionen allerdings auch nutzen um nichtlineare Effekte zu modellieren. Wie das geht und was zu beachten ist, schauen wir uns im Folgenden an. Dazu laden wir zunächst altbekannte Pakete:
library(ggplot2) # Grafiken library(car) # Residuenplots library(MASS) # studres Einführung: Exponentielles Wachstum Ein sehr wichtiges Vorhersagemodell zu Zeiten der Corona-Pandemie oder in Anbetracht von starkem weltweitem Bevölkerungswachstum ist das exponentielle Wachstum.
Wiederholung von Grundlagen in R Das Praktikum des Moduls PsyBSc 7 baut auf Grundlagen in R auf, die Sie im Modul PsyBSc2 erlernt haben. Damit wir alle vom gleichen Punkt aus in das Semester starten können, wiedehrolen wir an dieser Stelle einige Inhalte. Wenn Sie eigenständig eine umfassendere Auffrischung der Inhalte des letzten Semesters benötigen oder sich gerne auf die Datenanalyse in R einstimmen möchten, können Sie jederzeit über Pandar auf die Inhalte von PsyBSc 2 zurückgreifen.