Unter Verwendung von Unicode (hebräische Zeichen) mit regulärem Ausdruck
Ich habe ein Skript geschrieben, das Ausdrücke auf der Webseite findet:
import sre, urllib2, sys, BaseHTTPServer
# -*- coding: utf-8 -*-
address = sys.argv[1]
web_handle = urllib2.urlopen(address)
website_text = website_handle.read()
matches = sre.findall(u"עברית", website_text)
for item in matches:
print iten
Dieses Skript funktioniert, wenn ich einen "regulären" regulären Ausdruck (ohne hebräische Zeichen) verwende und wenn ich sie verwende, stimmt nichts überein. Was mache ich falsch
bearbeite Beispiel: url =https: //en.wikipedia.org/wiki/Category: Countries