Wyodrębnianie wybranych kolumn z tabeli za pomocą BeautifulSoup

Question

Oct 25, 2012, 08:08 PM

Wyodrębnianie wybranych kolumn z tabeli za pomocą BeautifulSoup

Próbuję wyodrębnić pierwszą i trzecią kolumnęta tabela danych za pomocą BeautifulSoup. Patrząc na HTML pierwsza kolumna ma<th> etykietka. Druga kolumna zainteresowania ma jak<td> etykietka. W każdym razie wszystko, co udało mi się wydostać, to lista kolumn z tagami. Ale chcę tylko tekst.

table jest już listą, więc nie mogę jej użyćfindAll(text=True). Nie wiem, jak uzyskać listę pierwszej kolumny w innej formie.

from BeautifulSoup import BeautifulSoup
from sys import argv
import re

filename = argv[1] #get HTML file as a string
html_doc = ''.join(open(filename,'r').readlines())
soup = BeautifulSoup(html_doc)
table = soup.findAll('table')[0].tbody.th.findAll('th') #The relevant table is the first one

print table