Arbeiten mit, Vorbereiten von Wortbeuteldaten für die Regression

Im versucht, ein Regressionsmodell zu erstellen, das das Alter eines Autors vorhersagt. Ich benutze (Nguyen et al, 2011) als meine Basis.

Verwenden eines Wortsackmodells Ich zähle die Vorkommen von Wörtern pro Dokument (die Posts von Boards sind) und erstelle den Vektor für jeden Post.

Ich beschränke die Größe jedes Vektors, indem ich die am häufigsten verwendeten Wörter (Stoppwörter werden nicht verwendet) als Merkmale verwend

Vectorexample_with_k_8 = [0,0,0,1,0,3,0,0]

Meine Daten sind im Allgemeinen spärlich wie im Beispiel.

Wenn ich das Modell anhand meiner Testdaten teste, erhalte ich einen sehr niedrigen r²-Wert (0,00-0,1), manchmal sogar einen negativen Wert. Das Modell sagt immer dasselbe Alter voraus, was zufällig das Durchschnittsalter meines Datensatzes ist, wie in der Verteilung meiner Daten (Alter / Menge) zu sehen:

ch habe verschiedene Regressionsmodelle verwendet: Lineare Regression, Lasso, SGDRegressor von scikit-learn ohne Verbesserun

So sind die Fragen:

1.Wie verbessere ich den r² Score?

2. Muss ich die Daten ändern, um sie besser an die Regression anzupassen? Wenn ja mit welcher Methode?

3.Welche Regressor / Methoden soll ich für die Textklassifizierung verwenden?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage