Tipps

Zuletzt aktualisiert am 25.07.2020 Projekt 3

Tipp 1

Hier geht es darum, bei der Datenaufbereitung die Zeilenumbrüche im Datensatz zu beheben.

Abschnitt anzeigen

Die Nachrichten mit Zeilenumbrüchen lassen sich identifizieren, indem wir mit which zwei Bedingungen verknüpfen. Das geht ganz einfach mit dem ‘&’ Zeichen. Danach kannst du in einer for Schleife die Uhrzeit aus der vorherigen Nachricht in die Zeilen ohne Absender und Uhrzeit kopieren.

Tipp 2

Dieser Tipp hilft dir bei dem Diagramm zu den Zeiten.

Abschnitt anzeigen

Bei dem Diagramm über die gesamte Zeit und über die Tageszeit hast du eine intervallskalierte Variable. Daher kannst du hier ein Histogramm machen. Bei den Wochentagen ist das anders. Da du nur sieben Kategorien hast, musst du hier mit geom_bar ein Balkendiagramm machen.

Tipp 3

Bei der Zeitanalyse soll die Differenz aus zwei Uhrzeiten gebildet werden. Dieser Tipp zeigt dir wie:

Abschnitt anzeigen

Um die Uhrzeiten möglichst einfach subtrahieren zu können, bringen wir die Zeiten und beide Autoren in eine Zeile. Das bedeutet, dass wir zwei neue Spalten an unseren Datensatz hängen, in denen wir die Uhrzeit und den Absender der folgenden Nachricht speichern.

Tipp 4

Dieser Tipp zeigt dir, wie du die Nachrichten ausschließen kannst, in denen Absender und Beantworter gleich sind.

Abschnitt anzeigen

Zunächst musst du die Fälle identifizieren und in einer neuen Variable speichern. Anschließend kannst du mithilfe einer for Schleife diesen Fällen in den beiden neuen Spalten (Absender und Zeit der folgenden Nachricht) NA zuweisen.

Tipp 5

Welches Maß du am besten für den Durchschnitt der Antwortzeit verwendest, zeigt dir dieser Tipp.

Abschnitt anzeigen

Wir haben keine Werte kleiner null, aber sehr starke Ausreißer nach oben. Daher ist es am sinnvollsten den Median zu benutzen, da dieser sehr robust gegenüber Ausreißern ist. Mit tapply kannst du ihn direkt auf alle Personen gleichzeitig anwenden.

Tipp 6

Hier gibt es einen Tipp, wie du am besten mit der Punktevergabe für unsere Freundschaftsanalyse umgehst.

Abschnitt anzeigen

Für die Punktevergabe gibt es den Befehl rank. Beachte in welche Richtung die Punkte vergeben werden: Hier kriegt der mit dem kleinsten Median den Wert 1.

Tipp 7

Dieser Tipp hilft dir, wenn du die Wörterlisten nicht einlesen kannst.

Abschnitt anzeigen

Bei allen Dateien musst du angeben: stringAsFactor = FALSE Bei der EmotionLookUpTable sind Zeilenumbrüche das Trennzeichen. Das kannst du so hinschreiben: sep = '\t'

Tipp 8

Wie du Abschwächer und Verstärker voneinander trennen kannst, erfährst du hier.

Abschnitt anzeigen

Verstärker und Abschwächer kannst du verschieden Variablen zuweisen, indem du sie über ihre Scores unterscheidest. Verstärker haben immer einen Wert über null und Abschwächer immer einen Wert unter null.

Tipp 9

Dieser Tipp hilft dir die Nachrichten für die Stimmungsanalyse vorzubereiten.

Abschnitt anzeigen

Bei der ersten Analyse nur mit deinen Nachrichten kannst du mit grep die Nachrichten auswählen und mit paste wieder verketten. Wenn du alle Nachrichten hast, brauchst du kein grep mehr, sondern erstellst erst einen neuen Datensatz und verkettest sie in einer for Schleife.

for (i in levels(whatsapp$who)) {
  chat$what[chat$who == i] <- paste(whatsapp$text[whatsapp$who == i], collapse = ' ')
}

Tipp 10

Der letzte Tipp zeigt dir die Punktevergabe bei der Stimmungsanalyse und was du hier anders machen musst.

Abschnitt anzeigen

Bei der Stimmungsanalyse ist ein höherer Wert besser. Das steht im Gegensatz zu der Zeitanalyse, wo ein kleiner Wert besser war. Bei dem rank Befehl kannst du ganz einfach ein minus vor die Variable setzen, um die Punktevergabe umzudrehen.

Tipps

Tipp 1

Tipp 2

Tipp 3

Tipp 4

Tipp 5

Tipp 6

Tipp 7

Tipp 8

Tipp 9

Tipp 10

Weiter zu den Lösungen

Christina Berger

Projekte