Jag är ingen expert på det här, men jag hade nog skrivit ett skript med t. ex. BOSS API-t för Yahoos sökmotor som utnyttjar funktionen site:dustinhome.se, varefter jag sorterar ut alla adresser som har pd_ i sig, eftersom detta är produkterna. Sedan skulle jag undersöka html-strukturen innan jag går vidare. t. ex. märker jag att produktens namn alltid är innesluten av <h1>-taggar, priset innesluts av en tagg med klassnamnet productDetailsPrice, etc.
Dessa kan man plocka ut med regular expressions som sagt. Det går att hitta mycket om det på Internet... man kan klippa och klistra ihop det mest, sedan när man har informationen är det bara att spara till databasen naturligtvis