Visa ett inlägg
Oläst 2009-09-26, 02:04 #9
Althalos Althalos är inte uppkopplad
Medlem
 
Reg.datum: Jan 2006
Inlägg: 282
Althalos Althalos är inte uppkopplad
Medlem
 
Reg.datum: Jan 2006
Inlägg: 282
Jag är ingen expert på det här, men jag hade nog skrivit ett skript med t. ex. BOSS API-t för Yahoos sökmotor som utnyttjar funktionen site:dustinhome.se, varefter jag sorterar ut alla adresser som har pd_ i sig, eftersom detta är produkterna. Sedan skulle jag undersöka html-strukturen innan jag går vidare. t. ex. märker jag att produktens namn alltid är innesluten av <h1>-taggar, priset innesluts av en tagg med klassnamnet productDetailsPrice, etc.

Dessa kan man plocka ut med regular expressions som sagt. Det går att hitta mycket om det på Internet... man kan klippa och klistra ihop det mest, sedan när man har informationen är det bara att spara till databasen naturligtvis
Althalos är inte uppkopplad   Svara med citatSvara med citat