Python beautifulsoup Iframe-Dokument HTML-Extrakt

Ich versuche, ein bisschen schöne Suppe zu lernen und einige HTML-Daten aus einigen iFrames zu holen - aber bisher war ich nicht sehr erfolgreich.

Das Parsen des iFrame an sich scheint also kein Problem mit BS4 zu sein, aber ich scheine nicht den eingebetteten Inhalt davon zu bekommen - was auch immer ich tue.

Betrachten Sie beispielsweise den folgenden iFrame (den ich in den Chrome-Entwicklertools sehe):

<iframe frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"
src="http://www.engineeringmaterials.com/boron/728x90.html "width="728" height="90">
#document <html>....</html></iframe>

wo,<html>...</html> ist der Inhalt, den ich extrahieren möchte.

Wenn ich jedoch den folgenden BS4-Code verwende:

iFrames=[] # qucik bs4 example
for iframe in soup("iframe"):
    iFrames.append(soup.iframe.extract())

Ich bekomme:

<iframe frameborder="0" marginwidth="0" marginheight="0" scrolling="NO" src="http://www.engineeringmaterials.com/boron/728x90.html" width="728" height="90">

Mit anderen Worten, ich bekomme die iFrames ohne das Dokument<html>...</html> in ihnen.

Ich habe versucht, etwas in der Art von:

iFrames=[] # qucik bs4 example
iframexx = soup.find_all('iframe')
for iframe in iframexx:
    print iframe.find_all('html')

.. aber das scheint nicht zu funktionieren ..

Meine Frage ist also, wie ich diese Dokumentobjekte zuverlässig extrahiere<html>...</html> aus den iFrame-Elementen.

Antworten auf die Frage(1)

Ihre Antwort auf die Frage