Holen Sie sich das HTML unter einem Tag mit HTMLParser Python

Question

Nov 11, 2012, 07:22 PM

Holen Sie sich das HTML unter einem Tag mit HTMLParser Python

Ich möchte ganzes HTML unter einem Umbau erhalten und HTMLParser verwenden. Ich kann derzeit die Daten zwischen den Tags abrufen und Folgendes ist mein Code

class LinksParser(HTMLParser):
  def __init__(self):
    HTMLParser.__init__(self)
    self.recording = 0
    self.data = ''

  def handle_starttag(self, tag, attributes):
    if tag != 'span':
      return
    if self.recording:
      self.recording += 1
      return
    for name, value in attributes:
      if name == 'itemprop' and value == 'description':
        break
    else:
      return
    self.recording = 1

  def handle_endtag(self, tag):
    if tag == 'span' and self.recording:
      self.recording -= 1

  def handle_data(self, data):
    if self.recording:
      self.data += data

Ich möchte auch die HTML-Tags in der Eingabe zum Beispiel

<span itemprop="description">
<h1>My First Heading</h1>
<p>My first <br/><br/>paragraph.</p>
</span>

wenn es als Eingabe bereitgestellt wird, würde es mir nur die Daten ohne Tags geben. Gibt es eine Methode, mit der ich ganze HTML-Dateien zwischen den Tags abrufen kann?