Abuse Melding

Je hebt een klacht over de onderstaande posting:

18-09-2020, 17:02 door Anoniem

Sla html.parser uit de standaard library van Python niet over. Die is heel basaal maar mogelijk geschikt voor wat je doet. Je maakt een subclass aan van html.parser.HTMLParser, en definieert methods voor het afhandelen van start- en eindtags (waarbij een xml-stijl <tag/> als start+eindtag wordt afgehandeld, tenzij je een override van nog een method doet) en voor data. Omdat de HTML sequentieel wordt afgehandeld: starttag->childtags->endtag, is de structuur uit de aanroepvolgorde te halen. Je kan bijvoorbeeld een lijst bijhouden en in elke aanroep van handle_starttag() daar een element aan toevoegen, en het bij de aanroep van handle_endtag() het weer uit de lijst verwijderen. Zo'n element kan naast de naam van de tag en attributen (die worden in de aanroep doorgegeven) een lijst met rechtstreekse children bevatten, die je in handle_starttag() toevoegt aan het element dat de parent vertegenwoordigt, om het eindresultaat in handle_endtag() te verwerken. Of wat je maar nodig hebt. Het kan een nadeel zijn dat ...

Beschrijf je klacht (Optioneel):

captcha