Visa ett inlägg
Oläst 2011-04-03, 13:06 #22
Clarence Clarence är inte uppkopplad
Administratör
 
Reg.datum: Jan 2003
Inlägg: 1 974
Clarence Clarence är inte uppkopplad
Administratör
 
Reg.datum: Jan 2003
Inlägg: 1 974
Citat:
Ursprungligen postat av Bjorne Visa inlägg
Det du då får fram är ett gäng med html-block. Ur de blocken måste du fortfarande ta fram vad som är brödtexten till inläggen. Tänk på att inläggen kan ha inbäddade citat och kodblock som måste rensas bort. xpathuttrycket för uppgiften blir någonting i stil med:
Kod:
//div[contains(@id, "post_message")]/text()
Jag kan hålla med dig om att med ett sådant enkelt uppdrag för en scraper så är det smidigare med Xpath. När du börjar få lite jobbigare mönster och mer att ta hänsyn till däremot, det är då jag tycker xpath blir omständigare. När du har lite olika struktur beroende på innehåll, olika element som ska tas hänsyn till beroende på det, och sedan bara ska ha ut en liten del av texten som finns där. Då får du dels använda regex för text-parsingen i efterhand ändå, och sedan antingen skapa ett riktigt långt xpath-uttryck eller underhålla flera parallellt.
Clarence är inte uppkopplad   Svara med citatSvara med citat