Nie nadzorowane automatyczne algorytmy tagowania?

Chcę zbudować aplikację internetową, która umożliwia użytkownikom przesyłaniedokumenty, filmy, obrazy, muzyka, a następnie daj im możliwość przeszukiwania ich. Pomyśl o tym jakDropbox + Wyszukiwanie semantyczne.

Gdy użytkownik przesyła nowy plik, np.Dokument1.docx, jak mogę automatycznie generować tagi na podstawie zawartości pliku? Innymi słowy, nie ma potrzeby wprowadzania danych przez użytkownika, aby określić, o co chodzi w pliku. Jeśli tak, toDokument1.docx jest artykułem badawczym na temat eksploracji danych, a następnie, gdy użytkownik szukaeksploracja danychlubpraca naukowalubdokument1, ten plik powinien zostać zwrócony w wynikach wyszukiwania, ponieważeksploracja danych ipraca naukowa najprawdopodobniej będą potencjalnymi automatycznie wygenerowanymi tagami dla danego dokumentu.

1. Które algorytmy poleciłbyś dla tego problemu?

2. Czy istnieje biblioteka języka naturalnego, która mogłaby to dla mnie zrobić?

3. Jakie techniki uczenia maszynowego powinienem sprawdzić, aby poprawić precyzję znakowania?

4. Jak mogę rozszerzyć to na automatyczne tagowanie wideo i obrazów?

Z góry dziękuję!

questionAnswers(4)

yourAnswerToTheQuestion