Со времени первого написания я узнал, что модуль Python regex (re) неправильно обрабатывает эти пробельные символы и может вызвать сбой при обнаружении. Оказывается, более быстрый и надежный метод использует функцию .split ().

ужно разделить строку и извлечь слова, разделенные пробелами. Источник может быть на английском или японском языке. Английские пробельные символы включают символы табуляции и пробела, и японский текст тоже использует их. (IIRC, все широко используемые японские наборы символов являются надмножествами US-ASCII.)

Таким образом, набор символов, которые мне нужно использовать для разделения строки, включает в себя обычное ASCII-пространство и табуляцию.

Но в японском языке есть еще один символ пробела, обычно называемый «пробел во всю ширину». В соответствии с утилитой Character Viewer моего Mac, это U + 3000 "IDEOGRAPHIC SPACE". Это (обычно) то, что получается, когда пользователь нажимает клавишу пробела при наборе текста в японском режиме ввода.

Есть ли другие персонажи, которые мне нужно рассмотреть?

Я обрабатываю текстовые данные, предоставленные пользователями, которым было сказано "отдельные записи с пробелами". Тем не менее, пользователи используют широкий спектр компьютерных и мобильных операционных систем для отправки этих текстов. Мы уже видели, что пользователи могут не знать, находятся ли они в режиме ввода на японском или английском языке при вводе этих данных.

Кроме того, поведение клавиши пробела различается в разных платформах и приложениях даже в японском режиме (например, Windows 7 вставит идеографическое пространство, а iOS вставит пробел ASCII).

Так что я хочу, по сути, «набор всех символов, которые визуально выглядят как пробел и могут быть сгенерированы, когда пользователь нажимает клавишу пробела или клавишу табуляции, так как многие пользователи не знают разницу между пробелом и табуляцией, в Японский и / или английский ".

Есть ли какой-нибудь авторитетный ответ на такой вопрос?

Ответы на вопрос(2)

Ваш ответ на вопрос