постскриптум Это просто уточнение решения моба. Он объединяет первые две альтернативы в одну.
ользуюText::Ngrams
определить словосочетания в строке. Однако мне нужно сохранить слова, содержащие цифры. Я определил, что$o->{tokenrex}
это то, что мне нужно изменить, но я не могу определить правильное регулярное выражение для него.
Оригиналqr/([a-zA-Z]+|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/;
но я думаю, что мне нужно что-то еще в этом роде:
qr/([a-zA-Z]+|(?<=\w)(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?(?=\w)|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/;
Который должен, если я правильно читаю регулярное выражение, соответствовать любому числу буквенных символов, или «числу», в котором есть символ слова до и после него, или «числу». За исключением того, что оно разделяет мое «слово» на отдельные токены. Вот пример слова, с которым я работаю:A1X».
Любая помощь будет отличной.