Como faço para usar rótulos de seqüência não inteiros com SVM do scikit-learn? Python
O Scikit-learn possui módulos python bastante amigáveis para o aprendizado de máquina.
Eu estou tentando treinar um tagger SVM para processamento de linguagem natural (NLP), onde meus rótulos e dados de entrada são palavras e anotações. Por exemplo. Marcação de parte da fala, em vez de usar dados duplos / inteiros como tuplas de entrada[[1,2], [2,0]]
, minhas tuplas ficarão assim[['word','NOUN'], ['young', 'adjective']]
Alguém pode dar um exemplo de como eu posso usar o SVM com tuplas de string? o tutorial / documentação dado aqui é para entradas inteiras / duplas.http://scikit-learn.org/stable/modules/svm.html