Wie kann ich die Speichernutzung von Scikit-Learn Vectorizern reduzieren?
TFIDFVectorizer nimmt so viel Speicher in Anspruch, dass 470 MB von 100.000 Dokumenten mehr als 6 GB beanspruchen. Wenn wir 21 Millionen Dokumente ausgeben, passen 60 GB RAM nicht in unseren Arbeitsspeicher.
Also entscheiden wir uns für HashingVectorizer, müssen aber noch wissen, wie der Hashing-Vektorisierer verteilt wird.