Zusatz - Aufgaben
Wie angekündigt finden Sie im Folgenden nun nochmal Aufgaben, die sich auf die Tutorials 1 bis 3 beziehen.
Zunächst wollen wir nochmal Übungen mit einem kleinen, ausgedachten Datensatz durchführen. Stellen Sie sich dafür vor, dass Sie im Rahmen Ihres Studiums haben eine Untersuchung mit 10 Studierenden durchgeführt. Dabei haben Sie das Alter (in ganzen Zahlen), das Geschlecht (weiblich, männlich, divers), die deutsche Lieblingsstadt (Berlin, Hamburg, München, Frankfurt, Dresden), sowie die generelle Lebenszufriedenheit, gemessen mit 5 Items, erhoben.
Aufgabe 1
Laden Sie die folgenden 3 Vektoren und den Datensatz in Ihr Environment.
- Welche Klasse haben die Vektoren?
- Wie lauten die Dimensionen des Datensatzes?
#demographische Daten:
geschlecht <- c(1, 2, 2, 1, 1, 1, 3, 2, 1, 2)
alter <- c(20, 21, 19, 19, 20, 23, 22, 21, 19, 25)
stadt <- c(2, 1, 1, 4, 3, 2, 5, 4, 1, 3)
#Lebenszufriedenheit:
lz_items <- data.frame(lz1 = c(3, 4, 4, 2, 1, 4, 3, 5, 4, 3), lz2 = c(2, 2, 3, 2, 4, 1, 2, 3, 2, 2), lz3 = c(5, 3, 4, 4, 3, 5, 2, 4, 3, 4), lz4 = c(2, 1, 3, 2, 2, 3, 2, 4, 2, 1), lz5 = c(4, 4, 3, 3, 1, 4, 3, 4, 5, 3))
- Führen Sie die Vektoren und den Datensatz zusammen zu einem gemeinsamen Datensatz mit dem Namen
data
. Wie viele Variablen hat der neue Datensatz, wieviele Proband*innen liegen vor? - Wandeln Sie die Variable
geschlecht
und die Variablestadt
in Faktoren um. Dabei sind die Zahlen in der Reihenfolge im Beschreibungstesxt zugeordnet (Beispiel:1
bei Geschlecht wäreweiblich
). Überschreiben Sie die alten Variablen und überprüfen Sie die Umwandlung.
Aufgabe 2
Nun wollen wir die Extraktion von bestimmten Datenpunkten nochmal üben.
- Welche deutsche Lieblingsstadt hat Person 4 angegeben?
- Welches Geschlecht haben Person 7 und 8 angekreuzt?
- Wie lauten die Lebenszufriedenheits-Werte von Person 2 und 3 auf allen Items?
Aufgabe 3
Im Folgenden soll nicht nur extrahiert, sondern auch ersetzt werden.
- Ihnen fällt auf, dass die Angabe der 3. Person in Item
lz2
undlz4
nicht korrekt sind. Die korrekten Werte betragen 2 (fürlz2
) und 1 (fürlz4
). Wandeln Sie die Angaben im Datensatz entsprechend um. - Person 6 hat zudem ein falsches Alter angegeben (eigentlich 24). Welches Alter steht noch im Datensatz? Korrigieren Sie es entsprechend.
Aufgabe 4
Bei Item lz2
und lz4
handelt es sich um invertierte Items. Wandeln Sie die Items entsprechend um, sodass einheitlich eine hohe Ausprägung für eine hohe Lebenszufriedenheit steht. Überschreiben Sie dabei die Ursprungsvariablen. Die Variablen hatten 5 mögliche Antwortkategorien.
Aufgabe 5
Datenextraktion kann auch mit logischer Überprüfung kombiniert werden. Bearbeiten Sie dafür folgende Fragestellungen
- Haben Person 1 und Person 5 dasselbe Alter und Geschlecht?
- Haben Person 2 und Person 10 dasselbe Geschlecht und dieselbe Lieblingsstadt angegeben?
Aufabe 6
Der Datensatz enthält noch nicht die vollständige Menge an erhobenen Informationen. Sie hatten zusätzlich die Lieblingsfarbe der Versuchspersonen erhoben:
farbe <- c(1, 2, 1, 1, 3, 4, 2, 2, 1, 4) #1 = blau, 2 = rot, 3 = grün, 4 = schwarz
- Diese Angaben fehlen jedoch in
data
. Fügen Sie diese neue Spalte mit den entsprechenden Labels dem Datensatz hinzu.
Aufgabe 7
Nach einiger Zeit können Sie noch 3 weitere Proband*innen von der Teilnahme überzeugen. Fügen Sie diese zusätzlich an den Datensatz an. Die aufgeführten Zeilen wurden bereits invertiert.
c("weiblich", 21, "Frankfurt", 4, 4, 3, 4, 4, "blau")
c("männlich", 19, "Dresden", 2, 5, 2, 4, 3, "schwarz")
c("weiblich", 20, "Berlin", 1, 5, 1, 5, 1, "blau")
Aufgabe 8
Schauen Sie sich die Struktur Ihres Datensatzes an. Was fällt Ihnen auf? Passen Sie den Datensatz ggf. wieder an seine ursprüngliche Struktur an.
Aufgabe 9
Erstellen Sie eine neue Variable lz_ges
im Datensatz data
, die die Antworten auf den lz-Items bestmöglich zusammenfasst.
Aufgabe 10
Speichern Sie den Datensatz als RDA-Datei unter dem Namen Data_lz
lokal in ihrem Praktikums-Ordner ab. Lassen Sie sich erst den Pfad des aktuellen Working Directory ausgeben, und ändern Sie diesen ggf.
Aufgabe 11
Nachdem nun der Datensatz auf dem finalen Niveau ist, sollen Sie erste deskriptivstatistische Werte bestimmen.
- Wieviele Proband*innen haben die Farbe “schwarz” als Lieblingsfarbe ausgewählt?
- Was ist der Modus der Variable
farbe
? Wie hoch ist die Häufigkeit?
Aufgabe 12
Betrachten wir statt der Variable farbe
nun die Variable geschlecht
.
- Lassen Sie sich die absolute Häufigkeit in der für Menschen ungünstigeren grafischen Darstellungsform ausgeben.
- Wie hoch ist der relative Anteil der Versuchspersonen, die “männlich” angegeben haben?
Aufgabe 13
Berechnen Sie den relativen Informationsgehalt für die Variable stadt
. Was bedeutet das Ergebnis?
Aufgabe 14
Betrachten wir nun ein einzelnes Item (lz3
) aus dem Fragebogen zur Lebenszufriedenheit.
- Berechnen Sie ein geeignetes Maß der zentralen Tendenz.
- Geben Sie den Interquartilsbereich an.
- Überprüfen Sie Ihre Angabe, indem Sie sich einen Boxplot ausgeben lassen.
- Berechnen Sie zudem den Interquartilsabstand.
Aufgabe 15
Anstatt nur einer Variable soll nun der gesamte Skalenwert lz_ges
betrachtet werden.
- Berechnen Sie ein sinnvolles Maß der zentralen Tendenz.
- Bestimmen Sie ein passendes Streuungsmaß.
Aufgabe 16
Legen wir die ausgedachten Werte nun beiseite. Löschen Sie die Inhalte Ihres Environments und laden Sie sich den Datensatz fb22
in das Environment. Dies können sie lokal von ihrem PC, aber auch mittels der URL von der PandaR-Website machen. Eventuell haben Sie ihn ja auch aktiv in Ihrem Environment. Der Datensatz sollte 159 Versuchspersonen enthalten. Der Basisdatensatz hatte 36 Variablen, aber kann natürlich mehr enthalten, falls Sie weitere erstellt und abgespeichert haben.
rm(list = ls())
load(url('https://pandar.netlify.app/post/fb22.rda'))
Wandeln Sie zum Start die Variable lerntyp
in einen Faktor um. Die Labels lauten in dieser Reihenfolge: c(alleine, Gruppe, Mischtyp)
. Erstellen Sie dafür keine neuen Spalten, sondern überschreiben Sie die bereits bestehenden. Überprüfen Sie im Nachhinein die Umwandlung.
Aufgabe 17
Erstellen Sie ein Balkendiagramm mit der Variable lerntyp
. Geben Sie der Grafik einen Titel, eine Achsenbeschriftung, sowie ein fesches, hippes farbliches Design.
Aufgabe 18
Betrachten Sie die Variablen prok4
und prok10
. Liegen NAs vor? Wenn ja, wieviele? Überprüfen Sie dies mit Ihnen bekannten Befehlen.
Aufgabe 19
Die beiden Variablen sollen weiter betrachtet werden. Entfernen Sie bei Analysen (falls nötig) die fehlenden Werte.
- Bestimmen Sie das Maß der zentralen Tendenz für die beiden Variablen. Werden die Proband*innen-Angaben bei Variable
prok4
undprok10
in derselben Kategorie in zwei gleichgroße Hälften geteilt? - In welchem Bereich liegen die mittleren 50% der Angaben in den beiden Variablen
prok4
undprok10
? - Lassen Sie sich dies zusätzlich grafisch ausgeben.
Aufgabe 20
Nun betrachten wir den Skalenwert, der unter gewis
abgelegt ist. Dieser steht für die Persönlichkeitseigenschaft Gewissenhaftigkeit.
- Was ist der niedrigste, was ist der höchste Wert der Variable?
- Wie hoch ist die mittlere Ausprägung?
Aufgabe 21
Ist Ihr Jahrgang im Mittel, rein deskriptiv betrachtet, gewissenhafter (gewis
) oder extravertierter (extra
)? In welcher der beiden Variablen variieren die Angaben stärker? Gehen Sie für die Beantwortung davon aus, dass die Skalen gleich genormt sind.
Aufgabe 22
Verträglichkeit ist in vertr
abgelegt.
- Lassen Sie sich das Histogramm ausgeben.
- Zentrieren Sie die Variable
vertr
. Legen Sie dafür eine neue Spalte infb21
an mit dem Namenvertr_z
und lassen Sie sich erneut ein Histogramm ausgeben. Was hat sich verändert? - Standardisieren Sie die Variable
vertr
und speichern Sie diese ebenfalls unter einer neuen Spalte mit dem Namenvertr_st
ab. Was ist nun anders beim Histogramm?
Aufgabe 23
Vergleichen Sie deskriptiv das Maß der zentralen Tendenz der Variable extra
zwischen den Teilnehmenden, die alleine
und Gruppen
in der bevorzugten Lernform angegeben hatten. Welche der beiden Gruppen hat die höhere Ausprägung? Welche der beiden Gruppen ist im Mittel nerdier (nerd
)?
Aufgabe 24
Etwa 75% Prozent der Psychologiestudierenden in Deutschland sind weiblich. Sie treffen zufällig auf 15 Psychologiestudierende.
- Wie wahrscheinlich ist es, dass genau 9 der Personen weiblich sind?
- Wie wahrscheinlich ist es, dass mindestens 11 der Personen weiblich sind?
- Stellen Sie die Verteilungsfunktion der kummulierten Wahrscheinlichkeit aller Werte in einem Plot dar.
Aufgabe 25
In Deutschland liegt die Gewissenhaftigkeit (gewis
) bei Frauen im Mittel bei µ = 3.73.
- Sind Frauen, die Psychologie studieren, im Mittel gewissenhafter als Frauen in der Allgemeinbevölkerung? Stellen Sie die Hypothesen auf und führen Sie einen geeigneten Test durch.
- Geben Sie zudem das 99%-ige Konfidenzintervall und die Effektgröße an.
Aufgabe 26
Unterscheiden sich Personen, die gerne alleine lernen von Personen, die es bevorzugen in Gruppen zu lernen oder ein Mischtyp sind (lerntyp
), in ihrer Extraversion (extra
)? Schauen Sich sich die Daten graphisch an und führen sie nach Voraussetzungsprüfung einen geeigneten Test durch.
Aufgabe 27
Haben Studierende, die bei ihren Eltern wohnen (wohnen
), mit gleicher Wahrscheinlichkeit einen Nebenjob (job
) wie Studierende, die nicht bei ihren Eltern wohnen?
- Prüfen Sie die Voraussetungen für einen Chi-Quadrat-Test.
- Berechnen Sie die erwarteten Häufigkeiten der Zellen und treffen Sie eine Signifikanzentscheidung.
Aufgabe 28
Weichen Psychologie-Studierende, die einen Nebenjob haben, in ihrem Intellekt (intel
) von Psychologie-Studierenden, die keinen Nebenjob haben, ab.
- Führen Sie nach Voraussetzungsprüfung einen geeigneten Test durch.
Aufgabe 29
Unterscheidet sich im Durchschnitt die Nerdiness (nerd
) von Psychologiestudierenden von ihrem Intellekt (intel
)?
- Stellen sie die Hypothesen auf.
- Begründen Sie weshalb Sie welchen Test benutzen wollen.
- Führen Sie den Test durch und berechnen Sie gegebenfalls eine Effektgröße.
Aufgabe 30
Hängt die Gewissenhaftigkeit (gewis
) positiv mit der Anzahl an geschriebenen Wörtern zusammen, die als Begründung (grund
) für die Wahl des Psychologiestudiums angegeben wurde? Überprüfen Sie die Voraussetzungen für das gewählte Zusammenhangsmaß.
Tipp: Mit folgendem Befehl lässt sich die Anzahl an Wörtern einer Eingabe berechnen:
library(stringr) #falls noch nicht installiert: install.packages("stringr")
str_count("Wie viele Wörter hat dieser Satz?", "\\w+")
## [1] 6
Aufgabe 31
Lässt sich Prokrastination durch Gewissenhaftigkeit (gewis
) vorsagen?
(Falls noch nicht geschehen, berechnen sie den Skalenwert der Prokrastination)
fb22$prok2_r <- -1 * (fb22$prok2 - 5)
fb22$prok3_r <- -1 * (fb22$prok3 - 5)
fb22$prok5_r <- -1 * (fb22$prok5 - 5)
fb22$prok7_r <- -1 * (fb22$prok7 - 5)
fb22$prok8_r <- -1 * (fb22$prok8 - 5)
fb22$prok_ges <- fb22[, c('prok1', 'prok2_r', 'prok3_r',
'prok4', 'prok5_r', 'prok6',
'prok7_r', 'prok8_r', 'prok9',
'prok10')] |> rowMeans()
- Stellen Sie die Regressionsgerade auf und prüfen sie die Voraussetzungen.
- Prüfen Sie nun die Signifikanz der Koeffizienten mit einem 99%-Konfidenzintervall.
- Wie viel Prozent der Varianz von Prokrastination lässt sich durch die Gewissenhaftigkeit aufklären?
- Eine Person hat einen Gewissenhaftswert von 3.2. Welchen Prokrastinationswert sagt, dass Modell für diese Person voraus?
Aufgabe 32
In Aufgabe 29 haben wir herausgefunden, dass sich die Werte von Nerdiness und Intellekt von Psychologie-Studierenden unterscheiden. Die gefundene Effektgröße betrug d = -0.56. Wir wollen nun eine Poweranalyse durchführen, indem wir die Studie 10^4 mal wiederholen.
Nutzen Sie den Seed 4321 (set.seed(4321)
).
- Führen Sie eine Simulation durch, um die empirische Power des t-Tests zu bestimmen.
- Wie hoch ist die Wahrscheinlichkeit eines \(\beta\)-Fehlers?
- Angenommen wir wollen das \(\alpha\)-Niveau verändern. Wie würde sich das auf die Power des Tests auswirken? Simulieren sie diesmal den empirischen t-Wert und erstellen Sie einen Powerplot für \(\alpha\) = 0.001, \(\alpha\) = 0.01, \(\alpha\) = 0.025, \(\alpha\) = 0.05, \(\alpha\) = 0.1.