Análisis de página web en python usando Beautiful Soup

Question

Jun 27, 2012, 10:48 PM

Análisis de página web en python usando Beautiful Soup

Tengo algunos problemas para obtener los datos del sitio web. La fuente del sitio web está aquí:

view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO

hay algo como esto

INFORMACUE O FILMIETytuł .................................................... La mer à boire

Ocena .............................................: IMDB - 6.3 / 10 (24)

Produkcja .........................................: Francja

Gatunek ...........................................: Dramat

Czas trwania ...................................... 98 min.

Premiera ..........................................: 22.02.2012 - Świat

Reżyseria ........................................: Jacques Maillot

Scenariusz ........................................: Pierre Chosson, Jacques Maillot

Aktorzy ...........................................: Daniel Auteuil, Maud Wyler , Yann Trégouët, Alain Beigel

Y quiero obtener los datos de este sitio web para tener una lista de cadenas de Python:

[[Tytuł, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - Świat"]
[Reżyseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]

Escribí un código usando BeautifulSoup, pero no puedo ir más lejos, simplemente no sé qué obtener del resto de la fuente del sitio web y cómo convertir es una cadena ... ¡Por favor, ayuda!

Mi código:

    # -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib2
from bs4 import BeautifulSoup

try :
    web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
    soup = BeautifulSoup(web_page)
    c = soup.find('span', {'class':'vi'}).contents
    print(c)
except urllib2.HTTPError :
    print("HTTPERROR!")
except urllib2.URLError :
    print("URLERROR!")