Как обучить французский NER на основе модели условных случайных полей Стэнфорда-НЛП?

Я обнаружил инструменты Стэнфордского НЛП и нашел его действительно интересным. Я французский специалист по анализу данных, увлекаюсь анализом текста и хотел бы использовать ваши инструменты, но NER, недоступный на французском языке, весьма озадачивает меня.

Я хотел бы сделать свой собственный французский NER, возможно, даже предоставить его в качестве вклада в пакет, если он будет сочтен достойным, так что ... не могли бы вы рассказать мне о требованиях к обучению CRF для французского NER на основе stanford coreNLP?

Спасибо.

Ответы на вопрос(1)

Решение Вопроса

я не разработчик инструментов Стэнфорда, ни эксперт по НЛП. Просто лямбда-пользователь, который также нуждался в такой информации в некоторый момент. Также обратите внимание, что часть информации, приведенной ниже, взята из официального FAQ:http://nlp.stanford.edu/software/crf-faq.shtml#a

Вот шаги, которым я следовал, чтобы обучить свой собственный NER:

Установить java8

Создать поезд / тестовый образец. Это должно принять форму.tsv файлы в следующем формате:

  Venez    O
  découvrir    O
  lundi    DAY
  le    O
  nouvel    O
  espace    O
  de    O
  vente    O
  ODHOJS    ORGANISATION

В зависимости от исходного формата вашего текста вы можете создать этот образец с помощью оператора SQL или других инструментов НЛП. Маркировка - самая сложная часть, так как я не знаю других способов, кроме как сделать это вручную.

Обучите модель этой командой:

java -cp "stanford-ner.jar:lib/*" -mx4g edu.stanford.nlp.ie.crf.CRFClassifier -prop prop.txt

гдеprop.txt также описаноВот.

Это должно создать новый.jar содержащий недавно обученную модель.

Проверьте производительность модели:

java -cp "stanford-ner.jar:lib/*" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -testFile test.tsv > test.res

Входtest.tsv имеет тот же формат, что иtrain.tsv файл. Выход вtest.res имеет дополнительный столбец, содержащий прогнозируемый класс NER. Последние строки также показывают сводку с точки зрения точности, отзыва и F1.

Наконец, вы можете использовать свой NER на реальных данных:

java -cp "stanford-ner.jar:lib/*" -mx5g edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz  -textFile test.txt -outputFormat inlineXML > test.res

Надеюсь, поможет.

 Vincent Chalmel21 июн. 2016 г., 14:08
Merci Beaucoup!
 Mihai23 янв. 2017 г., 14:44
Если кто-то ищет французскую корпорацию, вот с 200.000 записейgithub.com/EuropeanaNewspapers/ner-corpora/blob/master/... На i7 с 16 ГБ оперативной памяти и SSD обучение занимает чуть более 10 минут

Ваш ответ на вопрос