Unüberwachte automatische Tagging-Algorithmen?

Ich möchte eine Webanwendung erstellen, mit der Benutzer hochladen könnenUnterlagen, Videos, bilder, Musik-und geben Sie ihnen dann die Möglichkeit, sie zu durchsuchen. Betrachten Sie es alsDropbox + Semantische Suche.

Wenn der Benutzer eine neue Datei hochlädt, z.Document1.docx, wie kann ich Tags basierend auf dem Inhalt der Datei automatisch generieren? Mit anderen Worten, es ist keine Benutzereingabe erforderlich, um festzustellen, worum es in der Datei geht. Wenn ich das annehmeDocument1.docx ist ein Forschungsbeitrag zum Thema Data MiningData Mining, oderForschungsbericht, oderdocument1sollte diese Datei in den Suchergebnissen zurückgegeben werden, daData Mining undForschungsbericht Es handelt sich höchstwahrscheinlich um potenzielle automatisch generierte Tags für das angegebene Dokument.

1. Welche Algorithmen würden Sie für dieses Problem empfehlen?

2. Gibt es eine Bibliothek in natürlicher Sprache, die dies für mich tun könnte?

3. Welche maschinellen Lerntechniken sollte ich untersuchen, um die Genauigkeit der Kennzeichnung zu verbessern?

4. Wie kann ich dies auf die automatische Kennzeichnung von Videos und Bildern ausweiten?

Danke im Voraus!

Antworten auf die Frage(4)

Ihre Antwort auf die Frage