Python re module staje się 20 razy wolniejszy, gdy zapętlasz więcej niż 100 różnych wyrażeń regularnych

Question

Jun 26, 2013, 06:12 PM

Python re module staje się 20 razy wolniejszy, gdy zapętlasz więcej niż 100 różnych wyrażeń regularnych

Mój problem polega na analizowaniu plików dziennika i usuwaniu części zmiennych w każdej linii, aby je pogrupować. Na przykład:

s = re.sub(r'(?i)User [_0-9A-z]+ is ', r"User .. is ", s)
s = re.sub(r'(?i)Message rejected because : (.*?) \(.+\)', r'Message rejected because : \1 (...)', s)

Mam około 120+ pasujących reguł, takich jak powyżej.

Nie znalazłem żadnych problemów z wydajnością podczas wyszukiwania kolejno po 100 różnych wyrażeń regularnych. Ale ogromne spowolnienie występuje przy stosowaniu 101 wyrażeń regularnych.

Dokładnie to samo dzieje się przy zastępowaniu moich reguł

for a in range(100):
    s = re.sub(r'(?i)caught here'+str(a)+':.+', r'( ... )', s)

Zamiast tego korzystał z 20-krotnie wolniejszego zakresu (101).

# range(100)
% ./dashlog.py file.bz2
== Took  2.1 seconds.  ==

# range(101)
% ./dashlog.py file.bz2
== Took  47.6 seconds.  ==

Dlaczego tak się dzieje? Czy istnieje jakieś znane obejście?

(Dzieje się w Pythonie 2.6.6 / 2.7.2 w systemie Linux / Windows.)

questionAnswers(1)

Popularne pytania

0 odpowiedzi

Jak aplikacja C # Windows Console może powiedzieć, czy jest uruchamiana interaktywnie

0 odpowiedzi

Jak utworzyć obiekt z ciągu znaków w Javie (jak ewaluować ciąg)?

0 odpowiedzi

Jak obniżyć wersję Maven z 3.XX do 2.2.1?

0 odpowiedzi

Jak utworzyć listę unikalnych elementów w JavaScript?

0 odpowiedzi

dodatkowa biała przestrzeń między tabelami w wiadomości e-mail dla klienta Gmail

Jesteś bardzo aktywny! To świetnie!

Python re module staje się 20 razy wolniejszy, gdy zapętlasz więcej niż 100 różnych wyrażeń regularnych

questionAnswers(1)

yourAnswerToTheQuestion

Popularne pytania