Tipps
Tipp 1
Hier geht es darum, bei der Datenaufbereitung die Zeilenumbrüche im Datensatz zu beheben.
Abschnitt anzeigen
Die Nachrichten mit Zeilenumbrüchen lassen sich identifizieren, indem wir mit which
zwei Bedingungen verknüpfen. Das geht ganz einfach mit dem ‘&’ Zeichen. Danach kannst du in einer for
Schleife die Uhrzeit aus der vorherigen Nachricht in die Zeilen ohne Absender und Uhrzeit kopieren.
Tipp 2
Dieser Tipp hilft dir bei dem Diagramm zu den Zeiten.
Abschnitt anzeigen
Bei dem Diagramm über die gesamte Zeit und über die Tageszeit hast du eine intervallskalierte Variable. Daher kannst du hier ein Histogramm machen. Bei den Wochentagen ist das anders. Da du nur sieben Kategorien hast, musst du hier mit geom_bar
ein Balkendiagramm machen.
Tipp 3
Bei der Zeitanalyse soll die Differenz aus zwei Uhrzeiten gebildet werden. Dieser Tipp zeigt dir wie:
Abschnitt anzeigen
Um die Uhrzeiten möglichst einfach subtrahieren zu können, bringen wir die Zeiten und beide Autoren in eine Zeile. Das bedeutet, dass wir zwei neue Spalten an unseren Datensatz hängen, in denen wir die Uhrzeit und den Absender der folgenden Nachricht speichern.
Tipp 4
Dieser Tipp zeigt dir, wie du die Nachrichten ausschließen kannst, in denen Absender und Beantworter gleich sind.
Abschnitt anzeigen
Zunächst musst du die Fälle identifizieren und in einer neuen Variable speichern. Anschließend kannst du mithilfe einer for
Schleife diesen Fällen in den beiden neuen Spalten (Absender und Zeit der folgenden Nachricht) NA zuweisen.
Tipp 5
Welches Maß du am besten für den Durchschnitt der Antwortzeit verwendest, zeigt dir dieser Tipp.
Abschnitt anzeigen
Wir haben keine Werte kleiner null, aber sehr starke Ausreißer nach oben. Daher ist es am sinnvollsten den Median zu benutzen, da dieser sehr robust gegenüber Ausreißern ist. Mit tapply
kannst du ihn direkt auf alle Personen gleichzeitig anwenden.
Tipp 6
Hier gibt es einen Tipp, wie du am besten mit der Punktevergabe für unsere Freundschaftsanalyse umgehst.
Abschnitt anzeigen
Für die Punktevergabe gibt es den Befehl rank
. Beachte in welche Richtung die Punkte vergeben werden: Hier kriegt der mit dem kleinsten Median den Wert 1.
Tipp 7
Dieser Tipp hilft dir, wenn du die Wörterlisten nicht einlesen kannst.
Abschnitt anzeigen
Bei allen Dateien musst du angeben: stringAsFactor = FALSE
Bei der EmotionLookUpTable sind Zeilenumbrüche das Trennzeichen. Das kannst du so hinschreiben: sep = '\t'
Tipp 8
Wie du Abschwächer und Verstärker voneinander trennen kannst, erfährst du hier.
Abschnitt anzeigen
Verstärker und Abschwächer kannst du verschieden Variablen zuweisen, indem du sie über ihre Scores unterscheidest. Verstärker haben immer einen Wert über null und Abschwächer immer einen Wert unter null.
Tipp 9
Dieser Tipp hilft dir die Nachrichten für die Stimmungsanalyse vorzubereiten.
Abschnitt anzeigen
Bei der ersten Analyse nur mit deinen Nachrichten kannst du mit grep
die Nachrichten auswählen und mit paste
wieder verketten. Wenn du alle Nachrichten hast, brauchst du kein grep
mehr, sondern erstellst erst einen neuen Datensatz und verkettest sie in einer for
Schleife.
for (i in levels(whatsapp$who)) {
chat$what[chat$who == i] <- paste(whatsapp$text[whatsapp$who == i], collapse = ' ')
}
Tipp 10
Der letzte Tipp zeigt dir die Punktevergabe bei der Stimmungsanalyse und was du hier anders machen musst.
Abschnitt anzeigen
Bei der Stimmungsanalyse ist ein höherer Wert besser. Das steht im Gegensatz zu der Zeitanalyse, wo ein kleiner Wert besser war. Bei dem rank
Befehl kannst du ganz einfach ein minus vor die Variable setzen, um die Punktevergabe umzudrehen.