@ user8383901: извините, но я не понимаю, что вы имеете в виду.
аюсь сопоставить пять подстрок в каждом блоке текста (всего 100 блоков).
Я сопоставляю 99% блоков текста, но с несколькими ошибками, касающимися групп 3 и 4.
Вот демонстрационная ссылка:https://regex101.com/r/cW2Is3/4
Группа 3 - это «части речи», а группа 4 - английский перевод.
В первом блоке текстаdet, pro
все должны быть в группе 3, а затемthe; him, her, it, them
должен быть в группе 4.
Та же проблема возникает снова в третьем блоке текста.
Группа 3 должна бытьadj, det, nm, pro
и группа 4 должна бытьa, an, one
.
Это мой шаблон:
([0-9]+)\s+(\w+(?:, \w+)?)\s+(\N+?)\s+(\H.+).*?\r?\n•\s+([\s\S]*?)\s+[0-9]+\s\|.*\s*