Kom ihåg mig?
Home Menu

Menu


Scrappa en sida med cURL?

 
Ämnesverktyg Visningsalternativ
Oläst 2008-12-22, 12:29 #1
FredrikNass avatar
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
 
Reg.datum: Oct 2006
Inlägg: 1 995
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
FredrikNass avatar
 
Reg.datum: Oct 2006
Inlägg: 1 995
Hej hopp alla Julsurfare, nu är det väl inte den här delen av forumet jag brukar skriva i mest. Men jag hoppas ändå att kunna få ut lite info här med


jag har lagat ett litet script med cURL som skickar en länk till en sida, och "scrappar" hela resultattexten från sidan.. men jag vill inte ha allting, utan enbart ett par få rader.. någon som har info om hur jag sätter en begränsning på vad som ska läsas? Eller är det smidigare att läsa hela, och bara sortera ut i det man får hem?

Det jag önskar vore att via html kunna ange classen (div) som ska läsas. eller .ex från ett visst ord och x antyl rader från det.

Sidans resultat kommer alltid att se likadant ut, någon som har en tanke om detta
FredrikNas är inte uppkopplad   Svara med citatSvara med citat
Oläst 2008-12-22, 13:24 #2
Jonas Jonas är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Feb 2004
Inlägg: 3 364
Jonas Jonas är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Feb 2004
Inlägg: 3 364
Om texten är felformaterad enligt standard så kan du läsa in sidan via XML (html följer samma struktur), och sedermera söka efter ev. id eller class och ladda in denna.

Om inte så får du nog fnula på lite regexps mm.
Jonas är inte uppkopplad   Svara med citatSvara med citat
Oläst 2008-12-22, 13:38 #3
tartareandesire tartareandesire är inte uppkopplad
Supermoderator
 
Reg.datum: Jan 2004
Inlägg: 11 585
tartareandesire tartareandesire är inte uppkopplad
Supermoderator
 
Reg.datum: Jan 2004
Inlägg: 11 585
Med största sannolikhet får du som Jonas säger sortera ut det du vill ha med reguljära uttryck.

Det här hör ju egentligen till serversidan.
__________________
Full-stack developer, free for smaller assignments
tartareandesire är inte uppkopplad   Svara med citatSvara med citat
Oläst 2008-12-22, 13:59 #4
FredrikNass avatar
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
 
Reg.datum: Oct 2006
Inlägg: 1 995
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
FredrikNass avatar
 
Reg.datum: Oct 2006
Inlägg: 1 995
Jo precis, räknar med att få filtrera ut det med reg_exp, men vad menar du med att det egentligen tillhör serversidan?
FredrikNas är inte uppkopplad   Svara med citatSvara med citat
Oläst 2008-12-22, 14:01 #5
tartareandesire tartareandesire är inte uppkopplad
Supermoderator
 
Reg.datum: Jan 2004
Inlägg: 11 585
tartareandesire tartareandesire är inte uppkopplad
Supermoderator
 
Reg.datum: Jan 2004
Inlägg: 11 585
Citat:
Originally posted by Novocain@Dec 22 2008, 14:59
Jo precis, räknar med att få filtrera ut det med reg_exp, men vad menar du med att det egentligen tillhör serversidan?
Menade bara tråden =) Den låg på klientsidan först.
__________________
Full-stack developer, free for smaller assignments
tartareandesire är inte uppkopplad   Svara med citatSvara med citat
Oläst 2008-12-22, 14:03 #6
FredrikNass avatar
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
 
Reg.datum: Oct 2006
Inlägg: 1 995
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
FredrikNass avatar
 
Reg.datum: Oct 2006
Inlägg: 1 995
nån som har ett exempel på hur man scrapar en sida med xml?
FredrikNas är inte uppkopplad   Svara med citatSvara med citat
Oläst 2008-12-22, 14:04 #7
FredrikNass avatar
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
 
Reg.datum: Oct 2006
Inlägg: 1 995
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
FredrikNass avatar
 
Reg.datum: Oct 2006
Inlägg: 1 995
åh, jag måste ha klickat fel, menade naturligtvis serversida
FredrikNas är inte uppkopplad   Svara med citatSvara med citat
Oläst 2008-12-22, 15:03 #8
Jonas Jonas är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Feb 2004
Inlägg: 3 364
Jonas Jonas är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Feb 2004
Inlägg: 3 364
Citat:
Originally posted by Novocain@Dec 22 2008, 15:03
nån som har ett exempel på hur man scrapar en sida med xml?
Du skriver inte vilket språk du använder?
Jonas är inte uppkopplad   Svara med citatSvara med citat
Oläst 2008-12-22, 15:54 #9
coredevs avatar
coredev coredev är inte uppkopplad
Bara ett inlägg till!
 
Reg.datum: Sep 2007
Inlägg: 1 554
coredev coredev är inte uppkopplad
Bara ett inlägg till!
coredevs avatar
 
Reg.datum: Sep 2007
Inlägg: 1 554
Hej Novocain.

Vad är det du är ute efter? Känner lite att ditt svar på tartareandesire tips inte riktigt funkar ihop med din fråga..

Hela google är full med kod.. här är bara några exempel på söksträngar:

Kod:
file_get_contents preg_match

php parse html

curl preg_match

curl parse xml

php class parse xml
Go fish!
coredev är inte uppkopplad   Svara med citatSvara med citat
Oläst 2008-12-22, 16:43 #10
FredrikNass avatar
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
 
Reg.datum: Oct 2006
Inlägg: 1 995
FredrikNas FredrikNas är inte uppkopplad
Bara ett inlägg till!
FredrikNass avatar
 
Reg.datum: Oct 2006
Inlägg: 1 995
Coredev: ah äntligen det var ordet parse jag saknade vridit å vänt ut och in på google, men fick inte fram något bra resultat utan ordet parse

Jag vill alltså parsea ut en viss del av en sida, och jag skulle vilja kunna använda antingen html ( som att ange ett html element där den ska börja läsa, och sen ett till där den ska sluta läsa. Eller så vill jag kunna ange text där den ska börja, och där den ska sluta.. dessa punkter kommer alltid att var detsamma, oavsett vad jag matar in till sidan)

Jonas jag kör med php cURL. (läst ett par artiklar om att det är snabbast för att hämta info)

Ursäkta otydlighet.

Jag ska läsa på lite om regular expressions och hur man sätter parse regler i xpath/ eller någon xml lösning. Dessa är relativt nya områden för mig.

Om någon orkar skriva ett litet exempel medans så vore det tacksamt.. fex ett exempel som hämtar ut "Board statistics" på framsidan av wn, vore intressant.


Edit: jag hittade alltså massor intressant nu när jag visste vad jag skulle söka efter, så jag tror att jag kommer att få det till, men ett exempel vore ändå trevligt


God Jul & Gott nytt år.
FredrikNas är inte uppkopplad   Svara med citatSvara med citat
Svara


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 19:04.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017