Daten für die Quiz
Quiz 1: Wiederholung und ggplot2
Die Fragen zum Quiz bezüglich Wiederholung und ggplot2
stammen aus dem bereits im ersten Tutorial bearbeiteten Machiavellismusfragebogen. Sie können den Datensatz direkt aus dem Internet in ihren Workspace in R
zu laden. Der funktionierende Befehl sieht so aus:
load(url("https://pandar.netlify.app/post/mach.rda"))
Die hier verwendeten Daten stammen aus dem “Open-Source Psychometrics Project”, einer Online-Plattform, die eine Sammlung an Daten aus verschiedensten Persönlichkeitstests zur Verfügung stellt. Wir haben schon Modifikationen für Sie darin vorgenommen. Natürlich können Sie den Datensatz “mach.rda” auch hier herunterladen, um ihn dann lokal zu lagern.
Der Datensatz erhält viele Angaben zur Persönlichkeit und zu demografischen Daten. Kern ist aber der 20 Items umfassende Machiavellismusfragebogen von Christie und Geis (1970) und die daraus ableitbare 4-faktorielle Struktur des Konzepts (Corral & Calvete, 2000). Die Skalenwerte dieser vier Faktoren haben wir bereits im Datensatz angelegt:
Variable | Bedeutung |
---|---|
nit | Negative interpersonal tactics |
pit | Positive interpersonal tactics |
cvhn | Cynical view of human nature |
pvhn | Positive view of human nature |
Der Struktur dieser vier Faktoren liegt die Idee zugrunde, dass Machiavellismus in zwei Konzepte - Taktiken und Überzeugungen - unterteilt werden kann. Taktiken stellen dabei vor allem eigene Verhaltensweisen im Umgang mit anderen Menschen dar, während Überzeugungen sich auf die grundlegende Natur anderer Menschen und ihrer Absichten beziehen. Innerhalb dieser beiden Konzepte wird noch einmal zwischen positiven und negativen Aspekten unterschieden. So stellt z.B. Item 2 “The best way to handle people is to tell them what they want to hear.” einen negativen Umgang mit anderen Menschen dar. Das Item 8 “Generally speaking, people won’t work hard unless they’re forced to do so.” stellt eine zynische Überzeugung bezüglich der grundlegenden Eigenschaften anderer Menschen dar.
Neben diesen Skalenwerten enthält der Datensatz auch diverse Variablen zu demografischem Hintergrund und allgemeinen Angaben über die Personen. Im Quiz sind davon folgende relevant:
Variable | Bedeutung |
---|---|
TIPI7 | Wärme einer Person |
voted | Teilnahme an der letzten Wahl (1 = Ja, 2 = Nein) |
hand | Schreibhand (1 = rechts, 2 = links, 3 = beide) |
education | Höchstes, abgeschlossenes Bildungsniveau |
Quiz 2: Partial- & Semipartialkorrelation und Multiple Regression
Der Beispieldatensatz enthält Daten zur Lesekompetenz aus der deutschen Stichprobe der PISA-Erhebung in Deutschland 2009. Sie können den im Folgenden verwendeten Datensatz “PISA2009.rda” hier herunterladen. Alternativ können Sie ihn auch direkt über diesen Befehl in Ihr Environment einladen.
load(url("https://pandar.netlify.app/post/PISA2009.rda"))
Im Datensatz sind viele Variablen der pädagogischen Forschung erhalten, die im Folgenden erklärt werden. Nicht alle davon werden für dieses Quiz benötigt und die wichtigen werden stets im Quiz selbst auch nochmal namentlich erwähnt.
Variable | Bedeutung |
---|---|
Grade | Klassenstufe |
Age | Alter in Jahren |
Female | Geschlecht (0 = m, 1 = w) |
Reading | Lesekompetenz |
JoyRead | Lesefreude |
LearnMins | Lernzeit in Minuten für Deutsch |
HISEI | Sozialstatus (“highest international socio-economic index of occupational status”) |
CultPoss | Fragebogen-Score für kulturelle Besitztümer zu Hause (z. B. klassische Literatur, Kunstwerke) |
Books | Anzahl Bücher zu Hause |
TVs | Anzahl Fernseher zu Hause |
Computers | Anzahl Computer zu Hause |
Cars | Anzahl Autos zu Hause |
MigHintergrund | Migrationshintergrund (0=beide Eltern in D geboren, 1=min. 1 Elternteil im Ausland geboren) |
FatherEdu | Bildungsabschluss des Vaters (International Standard Classification of Education) |
MotherEdu | Bildungsabschluss der Mutter (International Standard Classification of Education) |
Quiz 3: Modelloptimierung und Voraussetzungsprüfung
Die Daten für dieses Quiz entsprechen denen aus dem zweiten Quiz. Um Verwirrung zu vermeiden, wird die Beschreibung hier nochmal aufgeführt.
Der Beispieldatensatz enthält Daten zur Lesekompetenz aus der deutschen Stichprobe der PISA-Erhebung in Deutschland 2009. Sie können den im Folgenden verwendeten Datensatz “PISA2009.rda” hier herunterladen. Alternativ können Sie ihn auch direkt über diesen Befehl in Ihr Environment einladen.
load(url("https://pandar.netlify.app/post/PISA2009.rda"))
Im Datensatz sind viele Variablen der pädagogischen Forschung erhalten, die im Folgenden erklärt werden. Nicht alle davon werden für dieses Quiz benötigt und die wichtigen sind stets im Quiz auch nochmal namentlich erwähnt.
Variable | Bedeutung |
---|---|
Grade | Klassenstufe |
Age | Alter in Jahren |
Female | Geschlecht (0 = m, 1 = w) |
Reading | Lesekompetenz |
JoyRead | Lesefreude |
LearnMins | Lernzeit in Minuten für Deutsch |
HISEI | Sozialstatus (“highest international socio-economic index of occupational status”) |
CultPoss | Fragebogen-Score für kulturelle Besitztümer zu Hause (z. B. klassische Literatur, Kunstwerke) |
Books | Anzahl Bücher zu Hause |
TVs | Anzahl Fernseher zu Hause |
Computers | Anzahl Computer zu Hause |
Cars | Anzahl Autos zu Hause |
MigHintergrund | Migrationshintergrund (0=beide Eltern in D geboren, 1=min. 1 Elternteil im Ausland geboren) |
FatherEdu | Bildungsabschluss des Vaters (International Standard Classification of Education) |
MotherEdu | Bildungsabschluss der Mutter (International Standard Classification of Education) |
Quiz 4: Einfaktorielle und zweifaktorielle ANOVA
Im ersten Teil des Quiz verwenden wir den Datensatz Behandlungsform.rda
. Sie können den Datensatz hier herunterladen. Er kann aber auch wie gewohnt direkt von PandaR
eingeladen werden.
load(url("https://pandar.netlify.app/post/Behandlungsform.rda"))
In dem Datensatz sind die Ausprägungen von 100 Personen auf 6 Variablen abgetragen. Für das Quiz sind dabei zwei Variablen relevant, die diesmal relative selbsterklärend sind. KVT steht dabei für kognitive Verhaltenstherapie.
Variable | Bedeutung |
---|---|
Depression | Depressivitätsausprägung |
Therapieform | Form der Therapie (Kontrolle, KVT, blended Care KVT) |
Im zweiten Teil des Quiz arbeiten wir mit dem nature
-Datensatz. Sie können den Datensatz hier herunterladen. Gleichzeitig kann er aber auch einfach über den folgenden Link direkt eingeladen werden.
load(url("https://pandar.netlify.app/post/nature.rda"))
Der Datensatz behandelt die Naturverbundenheit in 6 Items. Weiterhin sind Informationen hinsichtlich des Wohnortes vorhanden. Die Tabelle zeigt nochmal Variablennamen und Bedeutungen.
Variable | Bedeutung |
---|---|
Q1A bis Q6A | Items zur Naturverbundenheit |
urban | Typ des Wohnortes |
continent | Kontinent des Wohnortes |
Quiz 5: Varianzanalyse mit Messwiederholung
Für das Quiz wurde der Datensatz zum Alkoholkonsum von Jugendlichen von Curran, Stice und Chassin (1997), der auch schon im Tutorial verwendet wurde, um weitere Messzeitpunkte erweitert, um ein neues Setting für das Quiz zu demonstrieren. Die neuen Daten sind also nicht mehr aus der Studie bzw. gemessen, sondern zusätzliche simulierte Werte.
Sie können den Datensatz hier herunterladen. So laden wir die Daten direkt über pandaR
:
load(url("https://pandar.netlify.app/post/alc_extended.rda"))
Im Environment sollten nun zwei Datensätze erscheinen. Wie bereits beschrieben sind diese Erweiterungen des ursprünglichen Datensatzes. Der Datensatz alc17
hat eine Variable mehr (alcuse.17
), während alc18
nochmal 2 weitere zusätzliche Variablen (treat
und alcuse.18
) hat. Im Quiz wird stets beschrieben, mit welchem Datensatz Sie arbeiten sollen.
Insgesamt existieren die folgenden Variablen:
Variable | Bedeutung | Kodierung |
---|---|---|
id | Personen-Identifikator | |
male | Geschlecht | 0 = weiblich, 1 = männlich |
peer | berichtetes Ausmaß, in dem Peers Alkohol konsumieren | 0 = keine, 5 = alle |
coa | Kind eines/einer Alkoholiker:in (“child of alcoholic”) | 0 = nein, 1 = ja |
alcuse.14 | selbstberichtete Häufigkeit, mit der Alkohol im Alter von 14 Jahren konsumiert wird | 0 = nie, 7 = täglich |
alcuse.15 | selbstberichtete Häufigkeit, mit der Alkohol im Alter von 15 Jahren konsumiert wird | 0 = nie, 7 = täglich |
alcuse.16 | selbstberichtete Häufigkeit, mit der Alkohol im Alter von 16 Jahren konsumiert wird | 0 = nie, 7 = täglich |
alcuse.17 | selbstberichtete Häufigkeit, mit der Alkohol im Alter von 17 Jahren konsumiert wird | 0 = nie, 7 = täglich |
treat | Behandlung | 0 = nein, 1 = ja |
alcuse.18 | selbstberichtete Häufigkeit, mit der Alkohol im Alter von 18 Jahren konsumiert wird | 0 = nie, 7 = täglich |
Quiz 6: Quadratische & Interaktionseffekte und Loops & Funktionen
Für dieses Quiz werden überwiegend selbstständig Daten erzeugt oder Code geschrieben. Für den ersten Teil des Quizzes verwenden wir einen simulierten Datensatz, der einige nennenswerte Aspekte der moderierten Regression aufzeigt. Den Datensatz laden Sie via
load(url("https://pandar.netlify.app/post/Interaction.rda"))
Der Datentsatz besteht aus \(n=1234\) Beobachtungen auf 3 Variablen:
Variable | Beispiel | Bedeutung |
---|---|---|
Y | Arbeitszufriedenheit | Abhängige Variable |
X1 | Arbeitskomplexität | Prädiktor 1 |
X2 | Handlungsspielraum | Prädiktor 2 |
Da die Daten simuliert sind, tragen sie keine inhaltliche Bedeutung. Sie könnten sich beispielsweise folgende Variablen vorstellen: Y
= Arbeitszufriedenheit, X1
= Arbeitskomplexität, X2
= Handlungsspielraum. In diesem Setting ist es sinnvoll, nichtlineare Effekte zu untersuchen, da anzunehmen wäre, dass zu leichte Arbeit als langweilig und zu komplexe Arbeit als überfordernd eingeschätzt werden könnten und sich entsprechend negativ auf die Zufriedenheit auswirken (Annahme quadratischer Effekt von Komplexität). Genauso kann angenommen werden, dass Handlungsspielraum sich besonders bei komplexen Jobs positiv auswirkt (Annahme einer Interaktion). Auch könnte es einen Sättigungseffekt von Handlungsspielraum geben, sodass nur bis zu einem bestimmten Punkt mehr Handlungsspielraum auch zu einer höheren Zufriedenheit führt (Annahme quadratischer Effekt von Handlungsspielraum). Das sind natürlich nur Beispiele zur Verdeutlichung, die Daten wurden keinen echten Zusammenhängen nachempfunden.
Weiterer Datensatz
Der mdbf
-Datensatz enthält 98 Beobachtungen auf 12 Variablen, allesamt Items des Mehrdimensionalen Befindlichkeitsfragebogens. In diesem Fragebogen werden Adjektive zur Beschreibung der aktuellen Stimmung genutzt, um die drei Dimensionen der Stimmung - Gut vs. Schlecht, Wach vs. Müde und Ruhig vs. Unruhig - zu erheben. Dafür laden wir zunächst den mdbdf-Datensatz von der pandaR
-Website, und schauen uns die ersten Zeilen an.
load(url("https://pandar.netlify.app/post/mdbf.rda"))
Variable | Adjektiv | Richtung | Dimension |
---|---|---|---|
stim1 | zufrieden | positiv | Gut vs. Schlecht |
stim2 | ausgeruht | positiv | Wach vs. Müde |
stim3 | ruhelos | negativ | Ruhig vs. Unruhig |
stim4 | schlecht | negativ | Gut vs. Schlecht |
stim5 | schlapp | negativ | Wach vs. Müde |
stim6 | gelassen | positiv | Ruhig vs. Unruhig |
stim7 | müde | negativ | Wach vs. Müde |
stim8 | gut | positiv | Gut vs. Schlecht |
stim9 | unruhig | negativ | Ruhig vs. Unruhig |
stim10 | munter | positiv | Wach vs. Müde |
stim11 | unwohl | negativ | Gut vs. Schlecht |
stim12 | entspannt | positiv | Ruhig vs. Unruhig |
In der Spalte Dimension sehen wir, dass die Items 3 verschiedene Dimensionen abbilden: Gut vs. Schlecht, Wach vs. Müde und Ruhig vs. Unruhig. Die Items sind dabei unterschiedlich gepolt - die Adjektive “ausgeruht” und “schlapp” erfasst beide die Dimension Wach vs. Müde, jedoch in unterschiedlicher Ausrichtung.