hämta text/data från andra sidor?

zilveer · 2006-09-11, 22:47

hejsan,
jag skulle väldigt gärna vilja veta hur man på ett smidigt sätt kan hämta data/text från andra sidor.
jag vill dock unkomma att hämta självaste html-koden, utan bara texten på sidan.

tack för vägledning

grazzy · 2006-09-11, 22:53

$text = strip_tags(file_get_contents('http://www.rippamighårtoch.nu''));

Ett annat alternativ är:
lynx --dump http://www.orkarinteskrivasjälv.se/ > /tmp/text

Torde väl vara så enkelt det går att få det. Som vanligt hjälper det om du anger vilket språk och möjligheter du har att göra det hela på. Om du vill hämta specifik data på en viss sida blir det hela oändligt mycket mera komplicerat beroende vad du vill uppnå. Då kan jag tex rekommendera att läsa perlboken om LWP (Perl and LWP http://www.bokus.com/b/0596001789.html?pt=...=search_result) eller att lära dig skriva xml/html-parsers i PHP (the joy).

Magnus_A · 2006-09-19, 12:29

Curl rekommenderas (om du jobbar i PHP vill säga). Curl hämtar fler sidor än vad file_get_contents gör.

Om du inte vill skriva rutiner själv fnns det programvara som rotar fram den info du vill ha från sidorna, tex Happy Harvester

Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)

Menu

hämta text/data från andra sidor?