Подготовьте данные для классификации текста с помощью Scikit Learn SVM

Я пытаюсь применить SVM от Scikit и научиться классифицировать собранные мной твиты. Итак, будет две категории, назовите их A и B. На данный момент, я разместил все твиты в двух текстовых файлах:a.txt» а также 'b.txt», Однако я'Я не уверен, какой тип ввода данных запрашивает Scikit Learn SVM. У меня есть словарь с метками (A и B) в качестве его ключей и словарь функций (униграмм) и их частоты в качестве значений. Извини я'Я действительно новичок в машинном обучении и не уверен, что мне следует делать, чтобы заставить работать SVM. И я обнаружил, что SVM использует numpy.ndarray в качестве типа ввода данных. Нужно ли создавать один на основе моих собственных данных? Должно ли это быть что-то вроде этого?

Labels    features    frequency
  A        'book'        54
  B       'movies'       32

Любая помощь приветствуется.

Ответы на вопрос(1)

Ваш ответ на вопрос