Extrahieren von Zeilennummern, die einem regulären Ausdruck in einer Textdatei entsprechen

Question

Jun 13, 2013, 12:44 AM

Extrahieren von Zeilennummern, die einem regulären Ausdruck in einer Textdatei entsprechen

Ich mache ein Projekt zur statistischen maschinellen Übersetzung, in dem ich Zeilennummern aus einer mit POS-Tags versehenen Textdatei extrahieren muss, die mit einem regulären Ausdruck übereinstimmen (ein nicht getrenntes Phrasenverb mit dem Partikel 'out'), und die Zeilennummern schreiben muss in eine Datei (in Python).

Ich habe diesen regulären Ausdruck: '\ w * _VB.? \ Sout_RP' und meine mit POS-Tags versehene Textdatei: 'Corpus.txt'. Ich möchte eine Ausgabedatei mit den Zeilennummern erhalten, die mit dem oben genannten regulären Ausdruck übereinstimmen, und die Ausgabedatei sollte nur eine Zeilennummer pro Zeile haben (keine Leerzeilen), z.

2

5

44

Bisher habe ich in meinem Skript nur Folgendes:

OutputLineNumbers = open('OutputLineNumbers', 'w')
with open('Corpus.txt', 'r') as textfile:
    phrase='\w*_VB.?\sout_RP'
    for phrase in textfile: 

OutputLineNumbers.close()

Irgendeine Idee, wie man dieses Problem löst?

Im Voraus vielen Dank für Ihre Hilfe!