Wyodrębnianie wybranych kolumn z tabeli za pomocą BeautifulSoup
Próbuję wyodrębnić pierwszą i trzecią kolumnęta tabela danych za pomocą BeautifulSoup. Patrząc na HTML pierwsza kolumna ma<th>
etykietka. Druga kolumna zainteresowania ma jak<td>
etykietka. W każdym razie wszystko, co udało mi się wydostać, to lista kolumn z tagami. Ale chcę tylko tekst.
table
jest już listą, więc nie mogę jej użyćfindAll(text=True)
. Nie wiem, jak uzyskać listę pierwszej kolumny w innej formie.
from BeautifulSoup import BeautifulSoup
from sys import argv
import re
filename = argv[1] #get HTML file as a string
html_doc = ''.join(open(filename,'r').readlines())
soup = BeautifulSoup(html_doc)
table = soup.findAll('table')[0].tbody.th.findAll('th') #The relevant table is the first one
print table