Kom ihåg mig?

Vilken Scraping-teknik är bäst?

 
Ämnesverktyg Visningsalternativ
Oläst 2011-04-01, 19:49 #13
emilvs avatar
emilv emilv är inte uppkopplad
Bara ett inlägg till!
 
Reg.datum: Feb 2004
Inlägg: 1 564
emilv emilv är inte uppkopplad
Bara ett inlägg till!
emilvs avatar
 
Reg.datum: Feb 2004
Inlägg: 1 564
Citat:
Ursprungligen postat av dAEk Visa inlägg
Bara en sån till synes enkel sak som att validera en e-postadress kräver att man läser uttrycket noga. Trots att formatet är spikat är uttrycket svårt att läsa och samtidigt lätt att tolka fel. Jag kan bara tänka mig hur en regex-scraper för dåligt Html-kodade sidor ser ut... Dom scrapers jag har skrivit har varit för olika privata projekt och jag har testat lite olika sätt att hämta ut informationen. Iofs är jag inte direkt bra på regex men man märker ganska snabbt om det kommer funka med uppdateringar i långa loppet.

Kanske hade jag otur med sajterna som jag läste av men jag tycker ändå att det gick upp för en att det inte är en fråga om utan när man behöver uppdatera koden. När den dagen är kommen vill man som vanlig dödlig helst inte sitta med avancerad regex.
Min erfarenhet är att det räcker med en eller ett par reguljära uttryck för att tolka en sida. Dagen när man måste uppdatera sin kod kommer nästan oavsett vilken metod man väljer (förutom de mest avancerade automatiska metoderna, som förstår tabeller, rubriker och en massa annat, och som tar månader eller år att skriva). Då ser jag ingen direkt skillnad mellan XPath och reguljära uttryck i svårighetsgrad.
emilv är inte uppkopplad   Svara med citatSvara med citat
 


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 
Ämnesverktyg
Visningsalternativ

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 21:41.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017