Stanford NER no NLTK não codifica várias frases corretamente - Python

Question

Mar 09, 2016, 07:26 PM

nlp python named-entity-recognition stanford-nlp nltk

Stanford NER no NLTK não codifica várias frases corretamente - Python

Eu tenho uma função que retorna as entidades nomeadas em um determinado corpo de texto, usando o NER de Stanford.

def get_named_entities(text):
    load_ner_files()

    print text[:100] # to show that the text is fine
    text_split = text.split()        
    print text_split # to show the split is working fine
    result = "named entities = ", st.tag(text_split)
    return result

Estou carregando o texto de um URL usando o pacote Python do jornal.

def get_page_text():
    url = "https://aeon.co/essays/elon-musk-puts-his-case-for-a-multi-planet-civilisation"
    page = Article(url)
    page.download()
    page.parse() 
    return unicodedata.normalize('NFKD', page.text).encode('ascii', 'ignore')

No entanto, quando executo a função, obtenho a seguinte saída:

['Fuck', 'Earth!', 'Elon', 'Musk', 'said', 'to', 'me,', 'laughing.', 'Who', 'cares', 'about', 'Earth?'......... (continued)
named entities = [('Fuck', 'O'), ('Earth', 'O'), ('!', 'O')]

Então, minha pergunta é: por que apenas as três primeiras palavras estão sendo marcadas?