wzorzec wyrażenia regularnego w pythonie do analizowania znaczników tytułu HTML

Question

Nov 18, 2013, 11:52 AM

wzorzec wyrażenia regularnego w pythonie do analizowania znaczników tytułu HTML

Uczę się używać obure moduł iurllib moduł w Pythonie i próba napisania prostego skrobaka WWW. Oto kod, który napisałem, aby zeskanować tylko tytuł stron internetowych:

#!/usr/bin/python

import urllib
import re

urls=["http://google.com","https://facebook.com","http://reddit.com"]

i=0

these_regex="<title>(.+?)</title>"
pattern=re.compile(these_regex)

while(i<len(urls)):
        htmlfile=urllib.urlopen(urls[i])
        htmltext=htmlfile.read()
        titles=re.findall(pattern,htmltext)
        print titles
        i+=1

Daje to poprawne wyjście dla Google i Reddit, ale nie dla Facebooka - tak:

['Google']
[]
['reddit: the front page of the internet']

To dlatego, że znalazłem, że na stronie Facebookatitle tag jest następujący:<title id="pageTitle">. Aby pomieścić dodatkoweid=, Zmodyfikowałemthese_regex zmienna w następujący sposób:these_regex="<title.+?>(.+?)</title>". Ale daje to następujące dane wyjściowe:

[]
['Welcome to Facebook \xe2\x80\x94 Log in, sign up or learn more']
[]

W jaki sposób mógłbym połączyć oba, aby móc uwzględnić dodatkowe parametry przekazane w ramachtitle etykietka?

questionAnswers(3)

Popularne pytania

0 odpowiedzi

Nginx: zezwól na dostęp tylko polecającemu, który pasuje do nazwy lokalizacji

0 odpowiedzi

Przenieś tabelę z jednej bazy danych do innej bazy danych SQL Server

0 odpowiedzi

Co robi NOPL w systemie x86?

0 odpowiedzi

IEqualityComparer <T>, który używa ReferenceEquals

0 odpowiedzi

Java: Jak przekonwertować obiekt File na obiekt String w Javie? [duplikować]

Jesteś bardzo aktywny! To świetnie!

wzorzec wyrażenia regularnego w pythonie do analizowania znaczników tytułu HTML

questionAnswers(3)

yourAnswerToTheQuestion

Popularne pytania