Python TextBlob и классификация текста
Я пытаюсь сделать модель классификации текста с Python иtextblobскрипт запускается на моем сервере, и в будущем идея заключается в том, что пользователи смогут представить свой текст, и он будет засекречен. Я загружаю тренировочный набор из CSV:
# -*- coding: utf-8 -*-
import sys
import codecs
sys.stdout = open('yyyyyyyyy.txt',"w");
from nltk.tokenize import word_tokenize
from textblob.classifiers import NaiveBayesClassifier
with open('file.csv', 'r', encoding='latin-1') as fp:
cl = NaiveBayesClassifier(fp, format="csv")
print(cl.classify("some text"))
csv имеет длину около 500 строк (со строкой от 10 до 100 символов), а NaiveBayesclassifier требуется около 2 минут для обучения, а затем он сможет классифицировать мой текст (не уверен, если это нормально, что требуется так много времени, возможно, мой сервер работает медленно только с 512 МБ оперативной памяти).
Пример строки CSV:
"Oggi alla Camera con la Fondazione Italia-Usa abbiamo consegnato a 140 studenti laureati con 110 e 110 lode i diplomi del Master in Marketing Comunicazione e Made in Italy.",FI-PDL
что мне не понятно, и я не могу найти ответ по документации textblob, так это если есть способ «сохранить» мой обученный классификатор (так сэкономить много времени), потому что теперь каждый раз, когда я запускаю скрипт, он будет тренироваться опять классификатор. Я новичок в классификации текста и машинного обучения, поэтому я прошу прощения, если это глупый вопрос.
Заранее спасибо.