För att plocka data från andra siter skulle jag inte använda php - där lämpar sig perl (som är designat för textbehandling) eller c (som man kan kompliera) bättre.
att använda regex kan lätt bli en mardröm också - det är bättre att använda redan existerande moduler och libs för det, för perl så rekommenderar jag HTML::Parser eller HTML::TokeParser som är guld värda