Extraindo Colunas Selecionadas de uma Tabela Usando BeautifulSoup
Eu estou tentando extrair as primeira e terceira colunas deesta tabela de dados usando BeautifulSoup. Olhando para o HTML, a primeira coluna tem um<th>
tag. A outra coluna de interesse tem como<td>
tag. De qualquer forma, tudo que consegui descobrir é uma lista da coluna com as tags. Mas eu só quero o texto.
table
já é uma lista, então não posso usarfindAll(text=True)
. Não sei como obter a listagem da primeira coluna em outro formulário.
from BeautifulSoup import BeautifulSoup
from sys import argv
import re
filename = argv[1] #get HTML file as a string
html_doc = ''.join(open(filename,'r').readlines())
soup = BeautifulSoup(html_doc)
table = soup.findAll('table')[0].tbody.th.findAll('th') #The relevant table is the first one
print table