постскриптум Это просто уточнение решения моба. Он объединяет первые две альтернативы в одну.

ользуюText::Ngrams определить словосочетания в строке. Однако мне нужно сохранить слова, содержащие цифры. Я определил, что$o->{tokenrex} это то, что мне нужно изменить, но я не могу определить правильное регулярное выражение для него.

Оригиналqr/([a-zA-Z]+|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/; но я думаю, что мне нужно что-то еще в этом роде:

 qr/([a-zA-Z]+|(?<=\w)(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?(?=\w)|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/;

Который должен, если я правильно читаю регулярное выражение, соответствовать любому числу буквенных символов, или «числу», в котором есть символ слова до и после него, или «числу». За исключением того, что оно разделяет мое «слово» на отдельные токены. Вот пример слова, с которым я работаю:A1X».

Любая помощь будет отличной.

Ответы на вопрос(1)

Ваш ответ на вопрос