Python - RegEx для разделения текста на предложения (предложение-токенизация) [дубликаты]
На этот вопрос уже есть ответ здесь:
Python разбить текст на предложения 9 ответовЯ хочу составить список предложений из строки, а затем распечатать их. Я не хочу использовать NLTK для этого. Таким образом, он должен быть разбит на точку в конце предложения, а не на десятичные дроби, сокращения или заголовок имени, или если предложение имеет .com. Это попытка регулярного выражения, которая не работает.
import re
text = """\
Mr. Smith bought cheapsite.com for 1.5 million dollars, i.e. he paid a lot for it. Did he mind? Adam Jones Jr. thinks he didn't. In any case, this isn't true... Well, with a probability of .9 it isn't.
"""
sentences = re.split(r' *[\.\?!][\'"\)\]]* *', text)
for stuff in sentences:
print(stuff)
Пример вывода того, как это должно выглядеть
Mr. Smith bought cheapsite.com for 1.5 million dollars, i.e. he paid a lot for it.
Did he mind?
Adam Jones Jr. thinks he didn't.
In any case, this isn't true...
Well, with a probability of .9 it isn't.