Убедитесь, что ваш файл корпуса имеет правильный формат. Вам нужно будет подготовить свой корпус как один текстовый файл со всеми словами, разделенными одним или несколькими пробелами или табуляцией. Если в вашем корпусе несколько документов, документы (только) должны быть разделены символами новой строки.

Question

Feb 24, 2018, 12:10 PM

Убедитесь, что ваш файл корпуса имеет правильный формат. Вам нужно будет подготовить свой корпус как один текстовый файл со всеми словами, разделенными одним или несколькими пробелами или табуляцией. Если в вашем корпусе несколько документов, документы (только) должны быть разделены символами новой строки.

ался следоватьэто.
Но кое-как, как я потратил много времени, ничего не получилось.
Я просто хочу тренироватьGloVe модель на моем собственном корпусе (файл ~ 900Mb corpus.txt). Я скачал файлы, указанные в ссылке выше, и скомпилировал их, используяcygwin (после редактирования файла demo.sh и изменения его наVOCAB_FILE=corpus.txt , должен ли я уйтиCORPUS=text8 без изменений?) вывод был:

cooccurrence.bincooccurrence.shuf.bintext8corpus.txtvectors.txt

Как я могу использовать эти файлы, чтобы загрузить его какGloVe модель на питоне?

Комментировать

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы