Kom ihåg mig?
Home Menu

Menu


Vilken Scraping-teknik är bäst?

 
Ämnesverktyg Visningsalternativ
Oläst 2011-04-03, 13:06 #1
Clarence Clarence är inte uppkopplad
Administratör
 
Reg.datum: Jan 2003
Inlägg: 1 974
Clarence Clarence är inte uppkopplad
Administratör
 
Reg.datum: Jan 2003
Inlägg: 1 974
Citat:
Ursprungligen postat av Bjorne Visa inlägg
Det du då får fram är ett gäng med html-block. Ur de blocken måste du fortfarande ta fram vad som är brödtexten till inläggen. Tänk på att inläggen kan ha inbäddade citat och kodblock som måste rensas bort. xpathuttrycket för uppgiften blir någonting i stil med:
Kod:
//div[contains(@id, "post_message")]/text()
Jag kan hålla med dig om att med ett sådant enkelt uppdrag för en scraper så är det smidigare med Xpath. När du börjar få lite jobbigare mönster och mer att ta hänsyn till däremot, det är då jag tycker xpath blir omständigare. När du har lite olika struktur beroende på innehåll, olika element som ska tas hänsyn till beroende på det, och sedan bara ska ha ut en liten del av texten som finns där. Då får du dels använda regex för text-parsingen i efterhand ändå, och sedan antingen skapa ett riktigt långt xpath-uttryck eller underhålla flera parallellt.
Clarence är inte uppkopplad   Svara med citatSvara med citat
Svara


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 01:21.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017