För att ge mig in i debatten
Jag måste avråda något från att använda regexp då det är betydligt svårare att definera bra regexp (såvida man inte är superduperduktig på det, och då har jag ändå sysslat med regexps etc i nästan fyra år). Istället finns det för framförallt Perl superbra verktyg för att parsa just HTML.
Verktyget som jag använder är HTML::TokeParser på
http://search.cpan.org/~gaas/HTML-Parser-3...L/TokeParser.pm
Nu är det kanske inget alternativ om man inte vill lära sig perl, men för dem med möjligheter till det så rekommenderar jag verkligen den här metoden över tex att parsa själv med regexp av flera anledningar.
- Tiden det tar att utveckla.
- Stabiliteten, om du skriver ett script som läser alla <a>-taggar så kan du vara säker på att det alltid funkar även om tex en tagg inte är stängd.
- Flexibiliteten.
Mina .2 kronor.