Raspagem dinâmica de dados na Web com Python, BeautifulSoup

Question

Aug 23, 2018, 01:22 PM

python beautifulsoup html javascript web-scraping

Raspagem dinâmica de dados na Web com Python, BeautifulSoup

Estou tentando extrair esses dados (número) para muitas páginas do HTML. Os dados são diferentes para cada página. Quando tento usar o soup.select ('span [class = "pull-right"]'), ele deve me fornecer o número, mas somente a tag vem. Eu acredito que é porque o Javascript é usado na página da web. 180.476 é a posição dos dados neste HTML específico que desejo para muitas páginas:

<div class="legend-block--body">
        <div class="linear-legend--counts">
          Pageviews:
          <span class="pull-right">
            180,476
          </span>
        </div>
        <div class="linear-legend--counts">
          Daily average:
          <span class="pull-right">
            8,594
          </span>
        </div></div>

Meu código (isso está em um loop para funcionar em muitas páginas):

res = requests.get(wiki_page, timeout =None)
soup = bs4.BeautifulSoup(res.text, 'html.parser')
ab=soup.select('span[class="pull-right"]')
print(ab)

resultado:

[<span class="pull-right">\n<label class="logarithmic-scale">\n<input 
class="logarithmic-scale-option" type="checkbox"/>\n        Logarithmic scale      
</label>\n</span>, <span class="pull-right">\n<label class="begin-at- 
zero">\n<input class="begin-at-zero-option" type="checkbox"/>\n        Begin at 
zero      </label>\n</span>, <span class="pull-right">\n<label class="show- 
labels">\n<input class="show-labels-option" type="checkbox"/>\n        Show 
values      </label>\n</span>]

URL de exemplo:https://tools.wmflabs.org/pageviews/?project=en.wikipedia.org&platform=all-access&agent=user&range=latest-20&pages=Star_Wars:_The_Last_Jedi

Quero as visualizações de página