Извлечение выбранных столбцов из таблицы с помощью BeautifulSoup
Я пытаюсь извлечь первый и третий столбцыэта таблица данных используя BeautifulSoup. Посмотрев на HTML, первый столбец имеет<th>
тег. Другой интересующий столбец имеет<td>
тег. В любом случае, все, что мне удалось вывести, это список столбцов с тегами. Но я просто хочу текст.
table
это уже список, поэтому я не могу использоватьfindAll(text=True)
, Я не уверен, как получить список первого столбца в другой форме.
from BeautifulSoup import BeautifulSoup
from sys import argv
import re
filename = argv[1] #get HTML file as a string
html_doc = ''.join(open(filename,'r').readlines())
soup = BeautifulSoup(html_doc)
table = soup.findAll('table')[0].tbody.th.findAll('th') #The relevant table is the first one
print table