Python TextBlob и классификация текста

Question

Nov 24, 2015, 02:35 AM

python nltk text-classification textblob nlp

Python TextBlob и классификация текста

Я пытаюсь сделать модель классификации текста с Python иtextblobскрипт запускается на моем сервере, и в будущем идея заключается в том, что пользователи смогут представить свой текст, и он будет засекречен. Я загружаю тренировочный набор из CSV:

# -*- coding: utf-8 -*-
import sys
import codecs
sys.stdout = open('yyyyyyyyy.txt',"w");
from nltk.tokenize import word_tokenize
from textblob.classifiers import NaiveBayesClassifier
with open('file.csv', 'r', encoding='latin-1') as fp:
    cl = NaiveBayesClassifier(fp, format="csv")  

print(cl.classify("some text"))

csv имеет длину около 500 строк (со строкой от 10 до 100 символов), а NaiveBayesclassifier требуется около 2 минут для обучения, а затем он сможет классифицировать мой текст (не уверен, если это нормально, что требуется так много времени, возможно, мой сервер работает медленно только с 512 МБ оперативной памяти).

Пример строки CSV:

"Oggi alla Camera con la Fondazione Italia-Usa abbiamo consegnato a 140 studenti laureati con 110 e 110 lode i diplomi del Master in Marketing Comunicazione e Made in Italy.",FI-PDL

что мне не понятно, и я не могу найти ответ по документации textblob, так это если есть способ «сохранить» мой обученный классификатор (так сэкономить много времени), потому что теперь каждый раз, когда я запускаю скрипт, он будет тренироваться опять классификатор. Я новичок в классификации текста и машинного обучения, поэтому я прошу прощения, если это глупый вопрос.

Заранее спасибо.

Python TextBlob и классификация текста

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Python TextBlob и классификация текста

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы