Необслуживаемые алгоритмы автоматической пометки?

Я хочу создать веб-приложение, которое позволяет пользователям загружатьдокументы,видео,изображений,Музыка, а затем дать им возможность искать их. Думайте об этом какDropbox + Семантический поиск.

Когда пользователь загружает новый файл, например,Document1.docxКак я могу автоматически генерировать теги на основе содержимого файла? Другими словами, пользовательский ввод не требуется, чтобы определить, о чем этот файл. Если предположить, чтоDocument1.docx исследовательская работа по извлечению данных, то, когда пользователь ищетсбор данных, или жеНаучно-исследовательская работа, или жедокумент1этот файл должен быть возвращен в результатах поиска, так каксбор данных а такжеНаучно-исследовательская работа Скорее всего, будут потенциальные автоматически сгенерированные теги для данного документа.

1. Какие алгоритмы вы бы порекомендовали для этой проблемы?

2. Есть ли библиотека естественных языков, которая могла бы сделать это для меня?

3. Какие методы машинного обучения я должен изучить, чтобы улучшить точность маркировки?

4. Как я могу расширить это для автоматической пометки видео и изображений?

Заранее спасибо!

Ответы на вопрос(4)

Ваш ответ на вопрос