Scrappa en sida med cURL?

FredrikNas · 2008-12-22, 13:29

Hej hopp alla Julsurfare, nu är det väl inte den här delen av forumet jag brukar skriva i mest. Men jag hoppas ändå att kunna få ut lite info här med

jag har lagat ett litet script med cURL som skickar en länk till en sida, och "scrappar" hela resultattexten från sidan.. men jag vill inte ha allting, utan enbart ett par få rader.. någon som har info om hur jag sätter en begränsning på vad som ska läsas? Eller är det smidigare att läsa hela, och bara sortera ut i det man får hem?

Det jag önskar vore att via html kunna ange classen (div) som ska läsas. eller .ex från ett visst ord och x antyl rader från det.

Sidans resultat kommer alltid att se likadant ut, någon som har en tanke om detta

Jonas · 2008-12-22, 14:24

Om texten är felformaterad enligt standard så kan du läsa in sidan via XML (html följer samma struktur), och sedermera söka efter ev. id eller class och ladda in denna.

Om inte så får du nog fnula på lite regexps mm.

tartareandesire · 2008-12-22, 14:38

Med största sannolikhet får du som Jonas säger sortera ut det du vill ha med reguljära uttryck.

Det här hör ju egentligen till serversidan.

FredrikNas · 2008-12-22, 14:59

Jo precis, räknar med att få filtrera ut det med reg_exp, men vad menar du med att det egentligen tillhör serversidan?

tartareandesire · 2008-12-22, 15:01

Citat:

Originally posted by Novocain@Dec 22 2008, 14:59
Jo precis, räknar med att få filtrera ut det med reg_exp, men vad menar du med att det egentligen tillhör serversidan?

Menade bara tråden =) Den låg på klientsidan först.

FredrikNas · 2008-12-22, 15:03

nån som har ett exempel på hur man scrapar en sida med xml?

FredrikNas · 2008-12-22, 15:04

åh, jag måste ha klickat fel, menade naturligtvis serversida

Jonas · 2008-12-22, 16:03

Citat:

Originally posted by Novocain@Dec 22 2008, 15:03
nån som har ett exempel på hur man scrapar en sida med xml?

Du skriver inte vilket språk du använder?

coredev · 2008-12-22, 16:54

Hej Novocain.

Vad är det du är ute efter? Känner lite att ditt svar på tartareandesire tips inte riktigt funkar ihop med din fråga..

Hela google är full med kod.. här är bara några exempel på söksträngar:

Kod:

file_get_contents preg_match

php parse html

curl preg_match

curl parse xml

php class parse xml

Go fish!

FredrikNas · 2008-12-22, 17:43

Coredev: ah äntligen det var ordet parse jag saknade

vridit å vänt ut och in på google, men fick inte fram något bra resultat utan ordet parse

Jag vill alltså parsea ut en viss del av en sida, och jag skulle vilja kunna använda antingen html ( som att ange ett html element där den ska börja läsa, och sen ett till där den ska sluta läsa. Eller så vill jag kunna ange text där den ska börja, och där den ska sluta.. dessa punkter kommer alltid att var detsamma, oavsett vad jag matar in till sidan)

Jonas jag kör med php cURL. (läst ett par artiklar om att det är snabbast för att hämta info)

Ursäkta otydlighet.

Jag ska läsa på lite om regular expressions och hur man sätter parse regler i xpath/ eller någon xml lösning. Dessa är relativt nya områden för mig.

Om någon orkar skriva ett litet exempel medans så vore det tacksamt.. fex ett exempel som hämtar ut "Board statistics" på framsidan av wn, vore intressant.

Edit: jag hittade alltså massor intressant nu när jag visste vad jag skulle söka efter, så jag tror att jag kommer att få det till, men ett exempel vore ändå trevligt

God Jul & Gott nytt år.

Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)

Menu

Scrappa en sida med cURL?