Preparación de datos y selección de características para entidad nombrada usando SVM

Question

Nov 29, 2014, 11:53 AM

svm python nltk named-entity-recognition

Preparación de datos y selección de características para entidad nombrada usando SVM

Tengo algunos datos de comentarios de usuarios de los cuales quiero encontrar el nombre de las marcas de electrónica de consumo. Por ejemplo, considere estas oraciones de ejemplo ne_chinked que hablan de "PS4", "nokia 720 lumia", "apple ipad", "sony bravia": -

In [52]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('When is the PS4 releasing')))
Out[52]: Tree('S', [('When', 'WRB'), ('is', 'VBZ'), ('the', 'DT'), Tree('ORGANIZATION', [('PS4', 'NNP')]), ('releasing', 'NN')])

In [53]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('I couldnt find the nokia 720 lumia in stores')))
Out[53]: Tree('S', [('I', 'PRP'), ('couldnt', 'VBP'), ('find', 'JJ'), ('the', 'DT'), ('nokia', 'NN'), ('720', 'CD'), ('lumia', 'NN'), ('in', 'IN'), ('stores', 'NNS')])

In [54]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('I just bought apple ipad and its really awesome')))
Out[54]: Tree('S', [('I', 'PRP'), ('just', 'RB'), ('bought', 'VBD'), ('apple', 'JJ'), ('ipad', 'NN'), ('and', 'CC'), ('its', 'PRPEl problema es cómo represento los datos para que la svm aprenda. Leí decenas de trabajos de investigación, pero ninguno de ellos reveló cómo representaban los datos de la característica en el svm. ¿Alguien puede ayudarme?), ('really', 'RB'), ('awesome', 'JJ')])

In [55]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('I would like to buy 1 Sony bravia led television')))
Out[55]: Tree('S', [('I', 'PRP'), ('would', 'MD'), ('like', 'VB'), ('to', 'TO'), ('buy', 'VB'), ('1', 'CD'), ('Sony', 'NNP'), ('bravia', 'IN'), ('led', 'VBN'), ('television', 'NN')])

El problema es cómo represento los datos para que la svm aprenda. Leí decenas de trabajos de investigación, pero ninguno de ellos reveló cómo representaban los datos de la característica en el svm. ¿Alguien puede ayudarme?