Kom ihåg mig?
Home Menu

Menu


Vilken Scraping-teknik är bäst?

 
Ämnesverktyg Visningsalternativ
Oläst 2011-04-03, 10:58 #18
Bjorne Bjorne är inte uppkopplad
Flitig postare
 
Reg.datum: Sep 2009
Inlägg: 374
Bjorne Bjorne är inte uppkopplad
Flitig postare
 
Reg.datum: Sep 2009
Inlägg: 374
Citat:
Ursprungligen postat av emilv Visa inlägg
Det är en baggis med reguljära uttryck också (särskilt eftersom inläggen verkar ha kommentarer i början och slutet, något som är extremt lätt att fånga med reguljära uttryck). Jag har förresten inte tagit ställning för eller emot någon teknik utan hävdar fortfarande att det beror på omständigheterna.
Det du då får fram är ett gäng med html-block. Ur de blocken måste du fortfarande ta fram vad som är brödtexten till inläggen. Tänk på att inläggen kan ha inbäddade citat och kodblock som måste rensas bort. xpathuttrycket för uppgiften blir någonting i stil med:
Kod:
//div[contains(@id, "post_message")]/text()
Bjorne är inte uppkopplad   Svara med citatSvara med citat
 


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 21:51.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017