Stanford NER no NLTK não codifica várias frases corretamente - Python
Eu tenho uma função que retorna as entidades nomeadas em um determinado corpo de texto, usando o NER de Stanford.
def get_named_entities(text):
load_ner_files()
print text[:100] # to show that the text is fine
text_split = text.split()
print text_split # to show the split is working fine
result = "named entities = ", st.tag(text_split)
return result
Estou carregando o texto de um URL usando o pacote Python do jornal.
def get_page_text():
url = "https://aeon.co/essays/elon-musk-puts-his-case-for-a-multi-planet-civilisation"
page = Article(url)
page.download()
page.parse()
return unicodedata.normalize('NFKD', page.text).encode('ascii', 'ignore')
No entanto, quando executo a função, obtenho a seguinte saída:
['Fuck', 'Earth!', 'Elon', 'Musk', 'said', 'to', 'me,', 'laughing.', 'Who', 'cares', 'about', 'Earth?'......... (continued)
named entities = [('Fuck', 'O'), ('Earth', 'O'), ('!', 'O')]
Então, minha pergunta é: por que apenas as três primeiras palavras estão sendo marcadas?