Eine Wortwolke nach Datum für ein Twitter-Suchergebnis aufzeichnen? (mit R)

Question

Jun 02, 2010, 10:24 PM

Eine Wortwolke nach Datum für ein Twitter-Suchergebnis aufzeichnen? (mit R)

Ich möchte Twitter nach einem Wort durchsuchen (sagen wir #google) und dann in der Lage sein, eine Schlagwortwolke der in twitts verwendeten Wörter zu generieren, jedoch nach Datumsangaben (z. B. bei einem sich bewegenden Fenster von einer Stunde, das sich bewegt) jedes Mal um 10 Minuten und zeigt mir, wie verschiedene Wörter im Laufe des Tages häufiger verwendet wurden.

Ich würde mich über jede Hilfe freuen, um dies zu tun, in Bezug auf: Informationsressourcen, Code für die Programmierung (R ist die einzige Sprache, die ich verwenden kann) und Ideen zur Visualisierung. Fragen

Wie bekomme ich die Informationen?

In R habe ich festgestellt, dass das Paket twitteR den Befehl searchTwitter enthält. Aber ich weiß nicht, wie groß ein "n" sein kann. Außerdem werden nicht die Daten zurückgegeben, aus denen der Twitt stammt.

AhaHie dass ich bis zu 1500 twitts bekommen könnte, aber das erfordert, dass ich das Parsen manuell mache (was mich zu Schritt 2 führt). Außerdem würde ich für meine Zwecke Zehntausende von Tricks brauchen. Ist es überhaupt möglich, sie im Nachhinein zu bekommen? (Zum Beispiel jedes Mal ältere Beiträge über die API-URL fragen?) Wenn nicht, gibt es die allgemeinere Frage, wie Sie einen persönlichen Speicher für Twitts auf Ihrem Heimcomputer erstellen können. (Eine Frage, die besser einem anderen SO-Thread überlassen werden könnte - obwohl es für mich sehr interessant wäre, wenn jemand hier Einblicke erhält)

Wie werden die Informationen analysiert (in R)? Ich weiß, dass R Funktionen hat, die von den Paketen rcurl und twitteR helfen könnten. Aber ich weiß nicht, welche oder wie ich sie verwenden soll. Irgendwelche Vorschläge wären hilfreich.

Wie zu analysieren? wie man alle "nicht interessanten" Wörter entfernt? Ich fand, dass das "tm" -Paket in R @ hdieses Beispiel:

reuters <- tm_map (reuters, removeWords, stopwords ("english"))

Würde dies den Trick machen? Soll ich noch was machen / mehr?

Auch ich stelle mir vor, ich würde das gerne tun, nachdem ich meinen Datensatz nach Zeit geschnitten habe (was einige posix-ähnliche Funktionen erfordert (bei denen ich nicht genau sicher bin, welche hier benötigt würden oder wie man sie verwendet).

Und schließlich ist da noch die Frage der Visualisierung. Wie erstelle ich eine Schlagwortwolke aus den Wörtern? Ich fanda Lösung hierfür hier, andere Vorschläge / Empfehlungen?

Ich glaube, ich stelle hier eine große Frage, aber ich habe versucht, sie in so viele einfache Fragen wie möglich zu zerlegen. Jede Hilfe wird begrüßt!

Beste

Tal