FAQ |
Kalender |
|
![]() |
#1 | ||
|
|||
Medlem
|
Hej,
Jag försöker skrapa content från denna sida: www.nelly.com/se/skor-kvinna/skor/festskor/ I grunden är det inget problem att skrapa den första sidan, men det finns många produkter, så jag skulle vilja kunna skrapa t.ex. den 3dje sidan också. När jag klickar på sida 3 ser länken ut såhär: http://nelly.com/se/skor-kvinna/skor...6&sort=&imgs=4 Detta ser ut som ett ajax anrop, eller eventuellt bara javascript. Denna sida kan dock inte skrapas. Jag använder Simple HTML DOM klassen i PHP. Är det någon som erfarenhet av liknande problem? Tack i förväg |
||
![]() |
![]() |
![]() |
#2 | ||
|
|||
Banned
|
maila och fråga nelly
![]() |
||
![]() |
![]() |
![]() |
#3 | |||
|
||||
Mycket flitig postare
|
Citat:
Om du kikar på http-anropen (med t.ex. Safaris Develop>Console>Network) så ser du snabbt att det är http://nelly.com/_inc/search_ajax.asp som levererar innehållet om du anger rätt parametrar. |
|||
![]() |
![]() |
![]() |
#4 | ||
|
|||
Medlem
|
Här är ett exempel på ett helt vanligt GET till en sökresultatsida med querystring parametrar
Bara o lattja lite med url:en och parametrarna så får du ut det du är ute efter http://nelly.com/se/kl%C3%A4der-...lors=&qHits=36 |
||
![]() |
![]() |
![]() |
#5 | ||
|
|||
Medlem
|
Citat:
Jag kom åt de parametrarna via firebugs net funktion som visar vilka requests som skickas. Jag förstår dock inte hur vi lyckas komma åt resultaten med en GET request, när sidan verkar vara kodad att hämta resultat med POST request via ajax? Kan du förklara det för mig är du snäll? Fungerar denna metoden generellt för hemsidor som hämtar resultat via ajax? Tack åter igen. |
||
![]() |
![]() |
![]() |
#6 | |||
|
||||
Mycket flitig postare
|
Citat:
Däremot har du förstås rätt i att det skillnad på en POST- och GET-request och lite lätt märkligt att serversidan inte gör någon åtskillnad på hur parametrarna kommer dit - men det här kan mycket väl vara avsiktligt för att kunna serva samma data oavsett request-metod. Det kan vara rätt praktiskt. Eller så är det helt oavsiktligt (var förut vanligt att inte göra någon skillnad på hur parametrarna hamnade i serverskript). Man kan ju fråga sig varför ni hämtar innehållet med GET-request när de använder POST (risk för att koden pajjar om de skulle ändra sitt upplägg…) :-/ |
|||
![]() |
![]() |
![]() |
#7 | ||
|
|||
Mycket flitig postare
|
Man får väl dock inte skrapa websidor hur som helst, så jag skulle rekommendera att du kontaktar Nelly först.
|
||
![]() |
![]() |
![]() |
#8 | ||
|
|||
Supermoderator
|
Det är normalt sett mer relevant hur datan sedan används, såvida man inte gör det extremt ogenomtänkt med mängder med requests under en kort tidsperiod. Men visst kan man alltid fråga om man vill vara på den säkra sidan.
__________________
Full-stack developer, free for smaller assignments |
||
![]() |
![]() |
![]() |
#9 | ||
|
|||
Har WN som tidsfördriv
|
Känns enklare att bara ladda hem alla deras produkter som xml, fast vill man göra det svårt för sig kan man ju göra det :-)
Produktlistor finns t.ex. på TradeDoubler så tjänar du dessutom pengar på att länka till dom. |
||
![]() |
![]() |
Svara |
|
|