¿Algoritmos de etiquetado automático sin supervisión?

Quiero construir una aplicación web que permita a los usuarios subirdocumentos, videos, imagenes, música, y luego darles la habilidad de buscarlos. Piense en ello comoDropbox + Búsqueda semántica.

Cuando el usuario carga un nuevo archivo, por ejemplo,Documento1.docx, ¿cómo podría generar automáticamente etiquetas basadas en el contenido del archivo? En otras palabras, no se necesita la entrada del usuario para determinar de qué trata el archivo. Si supongo queDocumento1.docx es un documento de investigación sobre minería de datos, luego cuando el usuario buscaminería de datosotrabajo de investigaciónodocumento1, ese archivo debe ser devuelto en los resultados de búsqueda, ya queminería de datos ytrabajo de investigación probablemente serán posibles etiquetas generadas automáticamente para ese documento dado.

1. ¿Qué algoritmos recomendaría para este problema?

2. ¿Existe una biblioteca de lenguaje natural que pueda hacer esto por mí?

3. ¿Qué técnicas de aprendizaje automático debo estudiar para mejorar la precisión del etiquetado?

4. ¿Cómo podría extender esto al etiquetado automático de video e imagen?

¡Gracias por adelantado!

Respuestas a la pregunta(4)

Su respuesta a la pregunta