tm: Datenrahmen einlesen, Text-IDs behalten, DTM erstellen und mit anderem Datensatz verbinden
Ich verwende das Paket tm.
Say Ich habe einen Datenrahmen von 2 Spalten, 500 Zeilen. Die erste Spalte ist die ID, die zufällig generiert wird und sowohl Zeichen als auch Nummer enthält: "txF87uyK" Die zweite Spalte ist der aktuelle Text: "Das Wetter ist heute gut. John ist joggen gegangen. Bla, bla, ..."
Nun möchte ich aus diesem Datenrahmen eine Dokumentterm-Matrix erstellen.
Mein Problem ist, dass ich die ID-Informationen behalten möchte, damit ich, nachdem ich die Dokumentterm-Matrix erhalten habe, diese Matrix mit einer anderen Matrix verbinden kann, bei der jede Zeile andere Informationen (Datum, Thema, Stimmung) jedes Dokuments und jeder Zeile enthält wird durch die Dokument-ID identifiziert.
Wie kann ich das machen
Frage 1: Wie konvertiere ich diesen Datenrahmen in einen Korpus und erhalte ID-Informationen?
Frage 2: Wie kann ich nach Erhalt eines dtm einen anderen Datensatz nach ID hinzufügen?