Извлечение выбранных столбцов из таблицы с помощью BeautifulSoup
Я пытаюсь извлечь первый и третий столбцыэта таблица данных используя BeautifulSoup. Посмотрев на HTML, первый столбец имеет тег. Другой интересующий столбец имеет
тег. В любом случае, все, что яВы смогли получить список столбцов с тегами. Но я просто хочу текст.
table
это уже список, так что я могут использоватьfindAll(text=True)
, Я'Я не уверен, как получить список первого столбца в другой форме.
from BeautifulSoup import BeautifulSoup
from sys import argv
import re
filename = argv[1] #get HTML file as a string
html_doc = ''.join(open(filename,'r').readlines())
soup = BeautifulSoup(html_doc)
table = soup.findAll('table')[0].tbody.th.findAll('th') #The relevant table is the first one
print table