Kom ihåg mig?
Home Menu

Menu


Vilken Scraping-teknik är bäst?

 
Ämnesverktyg Visningsalternativ
Oläst 2011-03-31, 22:55 #11
Clarence Clarence är inte uppkopplad
Administratör
 
Reg.datum: Jan 2003
Inlägg: 1 974
Clarence Clarence är inte uppkopplad
Administratör
 
Reg.datum: Jan 2003
Inlägg: 1 974
Citat:
Ursprungligen postat av dAEk Visa inlägg
Utan att gå in på vad som är bäst tycker jag att någon form av parser som kan gå igenom DOM-trädet är att föredra. Skriver man en screen-scraper får man vara beredd på att sidorna ändras titt som tätt och då är det verkligen inge kul att sitta med en massa regex.
Jag vet inte riktigt hur stor erfarenhet du har av scraping - men utifrån min erfarenhet är det tvärtom. Man blir mycket lättare beroende av korrekt och samma struktur i elementen om man kör en DOM parser snarare än en (lite öppen) regex. Däremot skriver jag mycket hellre en helt straight forward CSS selektor än pillar med bakåtreferenser osv. Däremot finner jag det omständigare än regex med de flesta sätten att traversera dom-trädet.

Det är från att ha haft igång scrapers för diverse funktioner över iallafall 5+ år mot ett bra antal väldigt olika källor. Sajter byter hela systemen oftare än de byter HTML:en lite för mycket i vilket fall, i min erfarenhet.
Clarence är inte uppkopplad   Svara med citatSvara med citat
 


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 15:00.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017