Убедитесь, что ваш файл корпуса имеет правильный формат. Вам нужно будет подготовить свой корпус как один текстовый файл со всеми словами, разделенными одним или несколькими пробелами или табуляцией. Если в вашем корпусе несколько документов, документы (только) должны быть разделены символами новой строки.
ался следоватьэто.
Но кое-как, как я потратил много времени, ничего не получилось.
Я просто хочу тренироватьGloVe
модель на моем собственном корпусе (файл ~ 900Mb corpus.txt). Я скачал файлы, указанные в ссылке выше, и скомпилировал их, используяcygwin
(после редактирования файла demo.sh и изменения его наVOCAB_FILE=corpus.txt
, должен ли я уйтиCORPUS=text8
без изменений?) вывод был:
Как я могу использовать эти файлы, чтобы загрузить его какGloVe
модель на питоне?