FAQ |
Kalender |
|
![]() |
#1 | |||
|
||||
Bara ett inlägg till!
|
Definiera "bäst". Tänk efter vad som är prioriterat och välj den metod som passar bäst.
* Snabbt att skriva kod för varje sida * Hastighet * Minnesanvändning * Processoranvändning * Adapterbar, dvs passsar många hemsidor med så få ändringar som möjligt * Automatiskt adapterbar, dvs letar själv upp vad som är rätt innehåll på sidan * Många vitt skilda typer av sidor eller flera som liknar varandra? * Pris (om du hyr in någon, annars tid) * Inlärningströskel (om du gör det själv och inte har kunskapen) Det finns säkert flera faktorer som spelar in i valet av teknik. |
|||
![]() |
![]() |
![]() |
#2 | ||
|
|||
Flitig postare
|
XPath är bättre än att bara använda reguljära uttryck. I nyare versioner av XPath finns dessutom inbyggt stöd för reguljära uttryck så teknikerna står inte i motsatsförhållande till varandra. Teknik #3 som du nämner som använder sig av css-selektorer är sannolikt ett lager ovanpå XPath eftersom det är ganska lätt att konvertera css till xpathuttryck.
|
||
![]() |
![]() |
![]() |
#3 | |||
|
||||
Har WN som tidsfördriv
|
Jag har gjort en likande sak för något år sedan. Jag använde då cURL + regex, men jag vet inte om det är det bästa.
Det bästa och enklaste är väl att du antingen ansluter direkt till deras databas(vilket kanske inte är så troligt att du får) eller att de kan spotta ut informationen du vill i ett XML-dokument eller likande som du kan parsa med t.ex. SimpleXML. Du behöver ju ändå ha tillåtelse för att scrappa så det kanske inte är allt för svårt att fixa XML-lösningen om du kan fixa den åt dem. Det är den enklaste och den bästa lösningen i längden. Jag har stött på en del problem när jag scrappat direkt ur HTMLen. Vissa sidor ändras ganska ofta och innehållet kan skilja väldigt mycket vilket gör att ditt skript då kommer misslyckas med att hämta datan. Det gör att du måste underhålla skriptet regelbundet vilket gör att du aldrig kan släppa det helt om det är viktigt att det fungerar. |
|||
![]() |
![]() |
![]() |
#4 | |||
|
||||
Bara ett inlägg till!
|
Nej. Det är helt tillåtet att läsa av andras sidor. Hur man sedan använder informationen regleras bland annat av ifall den täcks av upphovsrätt, personuppgiftslag eller liknande. Men det finns dels andra användningsområden än att bara återpublicera det man läst in och dels material som inte faller inom upphovsrätten.
En seriös webbskrapare lämnar en identifierbar user-agent och respekterar robots.txt så att sajtägaren kan göra opt-out. Det är inte lag på det, men en god sed. |
|||
![]() |
![]() |
Svara |
|
|