WN

WN (https://www.wn.se/forum/index.php)
-   Serversidans teknologier (https://www.wn.se/forum/forumdisplay.php?f=4)
-   -   Scanning Teknik (https://www.wn.se/forum/showthread.php?t=207)

Kim Torvanger 2003-07-06 18:12

Är det någon som vet vilket språk och hur dom gör för att scanna aftonbladet och dagens nyheter mm?

Pekay 2003-07-06 19:48

Citat:

Originally posted by KimTorvanger@Jul 6 2003, 04:12 PM
Är det någon som vet vilket språk och hur dom gör för att scanna aftonbladet och dagens nyheter mm?
http://www.news.nu använder php

beror på, finns en del scripter färdiga på nätet, kolla hotscripts.com men du måste redigera och anpassa för varje nyhetssajt

Jens 2003-07-06 20:48

PHP är enkelt att göra site scanners med. Metoden jag använder tänker jag däremot behålla för mig själv men borde inte vara så svårt att klura ut själv med lite programmering/script kunskaper...

Kim Torvanger 2003-07-06 21:55

Hehe ok, tack båda. :)

Tobbe 2003-07-06 22:43

Hämta sidan till en variabel, strippa htmltags etc, splitta & inserta därefter till en db. Med php.net's funktionslista & lite logiskt tänkande går det kvickt :)

Mvh, Tobias

Kim Torvanger 2003-07-06 23:43

Citat:

Originally posted by dm.se@Jul 6 2003, 08:43 PM
Hämta sidan till en variabel, strippa htmltags etc, splitta & inserta därefter till en db. Med php.net's funktionslista & lite logiskt tänkande går det kvickt :)

Mvh, Tobias

:o Ok. :blink:

ZN 2003-07-07 13:38

Det brukar kallas syndication, sök på det kanske i kombination med parsing så kan du nog hitta en del, har själv cådat sånna i ASP och PHP, kan säga att PHP är överlägset enklare och snabbare än ASP på den biten (iof på alla bitar), med ASP va jag tvungen att installera en komponent som heter ASP-tear för kunna hämta data från andra websiter. I PHP finns dock funktioner för allt sånt, kolla socket-funktionerna, krävs inte många rader kod.

En jag känner cådade ett system i Java för att få det multitrådat, går ännu snabbare, han hämtar o andra sidan nyheter från 193 st nyhetssiter, se http://www.newzer.com :)

Per 2003-07-08 23:11

Nyckeln heter reguljära uttryck, eller regular expressions. Lär dig det så är det en barnlek att parsa data.

Kim Torvanger 2003-07-11 00:05

Tack allihopa. Ska sätta mig ner på en gång och börja lära mig lite "regular expressions" och sånt. Ska bara tanka PHP först. :)

Thomas 2003-07-11 00:35

Föredrar Perl, modern till "regular expressions" och starkast i alla lägen :)

Give it a try!

WN

Kim Torvanger 2003-07-13 17:26

Kan man få perl att fungera tillsammans med IIS (PWS)?? Har tankat mod_perl men behöver hjälp att få den installerad med PWS som sagt, nån som vet??

memox 2003-07-20 03:35

Japp, visst går det att köra Perl med PWS. Titta på http://home.ubalt.edu/abento/752/Pws/perliniis.html, där finns en bra beskrivning på hur du konfigurerar din PWS för Perl.

Kim Torvanger 2003-07-20 04:21

Tack så mycket. :)

jake 2003-07-22 18:21

Vad är det som gäller för användande av sådan här teknik. Måste man ha tillstånd från sidan man hämtar informationen ifrån?
Känns ju annars som att man kan "stjäla" besökare från en sida om man bara scannar och publicerar deras material...

Tobbe 2003-07-23 00:18

Självklart behöver man tillstånd.

Mvh, Tobias

Kim Torvanger 2003-07-24 04:48

Ja, man får göra upp en deal med sidan som äger materialet man ska scanna. Ge dom lite reklam osv.

Neo 2003-07-25 00:06

Citat:

Originally posted by dm.se@Jul 22 2003, 10:18 PM
Självklart behöver man tillstånd.
Även ifrån AB/Exp/SvD/tv4/etc. ?




ps. Kolla in frisim.com Lite mer avancerad "scanning" av nyheter! .. diggar den hårt!

Per 2003-07-25 17:52

Sajter som publicerar rubriker lär knappast stängas av två skäl:
1) De drar trafik till nyhetssajterna.
2) Upphovsrättslagen är inte helt lätttolkad med tanke på rätten att citera.

memox 2003-08-04 13:45

Jag pratade med en jurist på Dagens Nyheter angående detta och han sa att så länge man klart och tydligt anger vart nyheterna kommer från så är det helt lagligt.

nicclas 2003-10-08 03:30

Du Memox (om du fortfarande finns kvar här?) du bör nog ta ett nytt snack med din jurist på DN om hur man får länka till dem, och de flesta andra nyhetssajter.

På DN.se:s sida "Vanliga frågor om upphovsrätt" finns följande:

Får jag länka från min hemsida till material på DN.se?
Ja, om du gör fullständiga länkar, det vill säga länkar som "förflyttar" läsaren helt till DN.se. Det är inte tillåtet att länka in DN:s material i ett så kallat framesystem.

http://www.dn.se/DNet/jsp/polopoly.jsp?d=602&a=6579

Din hemsida Newzer.com uppfyller inte dessa önskemål/krav. Fixa kanske!? ;-)

Clarence 2003-10-08 04:47

Jag är rätt säker på att texten du refererar till är en generalisering för att inte riskera att bli feltolkade samt att det mot newzer.com, om DN skulle vilja ta lagliga åtgärder, inte ens skulle finnas en giltig åtalspunkt. Ta gärna googles image search som ett exempel, eller varför inte googles cache? Summan är att länkningen inte skadar DN, utan gör dem nytta.

nicclas 2003-10-08 12:00

cerebus: Jag tror inte att det är en "generalisering". Jag minns hur det var med Agent25 tidigare. De har nu tagit bort sin "frame:ning". Newzer.com gör naturligtvis som de vill, det var bara ett tips i all välmening. Jag tror heller inte att DN gör någon rättslig sak av det hela, om de inte vill statuera exempel.

Vad gäller Google så har de ingen cache på Google news. När det gäller bilder, så är det inte riktigt samma sak som nyheter.

Marcus 2003-11-04 20:08

Citat:

Originally posted by Silon@Jul 6 2003, 17:48
PHP är enkelt att göra site scanners med. Metoden jag använder tänker jag däremot behålla för mig själv men borde inte vara så svårt att klura ut själv med lite programmering/script kunskaper...
hämtar news.nu nyheterna vid varje förfrågan till news.nu-sidan eller ligger nyheterna lagrat lokalt i någon databas efter att de första gången hämtats från andra nyhetssidorna?

skulle vara intressant att höra och det lär ju inte vara någon större hemlighet? =)

Anders 2003-11-04 20:16

Citat:

Originally posted by Zed7@Jul 7 2003, 10:38
En jag känner cådade ett system i Java för att få det multitrådat, går ännu snabbare, han hämtar o andra sidan nyheter från 193 st nyhetssiter, se http://www.newzer.com :)
Går ju köra med trådar i PHP med... pcntl_fork()

Per 2003-11-04 21:49

Citat:

Ursprungligen postat av marcuss
Citat:

Ursprungligen postat av Silon
PHP är enkelt att göra site scanners med. Metoden jag använder tänker jag däremot behålla för mig själv men borde inte vara så svårt att klura ut själv med lite programmering/script kunskaper...

hämtar news.nu nyheterna vid varje förfrågan till news.nu-sidan eller ligger nyheterna lagrat lokalt i någon databas efter att de första gången hämtats från andra nyhetssidorna?

skulle vara intressant att höra och det lär ju inte vara någon större hemlighet? =)

de ligger i en databas.

ZN 2003-11-04 23:20

Citat:

Originally posted by lunne82@Nov 4 2003, 18:16
Går ju köra med trådar i PHP med... pcntl_fork()
Förvisso, men sen e det massa skit med max execution time osv (som man KAN ställa in högt, men ändå).

Anders 2003-11-05 01:20

Citat:

Ursprungligen postat av Zed7
Citat:

Ursprungligen postat av lunne82
Går ju köra med trådar i PHP med... pcntl_fork()

Förvisso, men sen e det massa skit med max execution time osv (som man KAN ställa in högt, men ändå).

Jodå, menade inte att det var bra/effektivt att tråda i PHP. Ville bara peka på att det går. :)

aikon 2004-02-19 03:48

Citat:

Originally posted by Cellsynt@Jul 6 2003, 19:43
Hämta sidan till en variabel, strippa htmltags etc, splitta & inserta därefter till en db. Med php.net's funktionslista & lite logiskt tänkande går det kvickt :)
Tänkte testa lite med den här tekniken som ni använder för att hämta nyhetsrubriker. Hur hämtar ni sidan? Jag får inte denna kod att fungera, t ex från AB:

$url = "http://www.aftonbladet.se/telegram/nyhetsbevakaren/";
$file = fopen ($url, "r");

Det verkar som PHP inte tillåter att externa filer öppnas. Använder ni något annat sätt?

Marcus 2004-02-19 03:54

Citat:

Originally posted by aikon@Feb 19 2004, 01:48
Tänkte testa lite med den här tekniken som ni använder för att hämta nyhetsrubriker. Hur hämtar ni sidan? Jag får inte denna kod att fungera, t ex från AB:

$url = "http://www.aftonbladet.se/telegram/nyhetsbevakaren/";
$file = fopen ($url, "r");

Det verkar som PHP inte tillåter att externa filer öppnas. Använder ni något annat sätt?

$file = file("http://www.aftonbladet.se/telegram/nyhetsbevakaren/");

...bör funka fint...

aikon 2004-02-19 05:24

Citat:

Ursprungligen postat av marcuss
Citat:

Ursprungligen postat av aikon
Tänkte testa lite med den här tekniken som ni använder för att hämta nyhetsrubriker. Hur hämtar ni sidan? Jag får inte denna kod att fungera, t ex från AB:

$url = "http://www.aftonbladet.se/telegram/nyhetsbevakaren/";
$file = fopen ($url, "r");

Det verkar som PHP inte tillåter att externa filer öppnas. Använder ni något annat sätt?

$file = file("http://www.aftonbladet.se/telegram/nyhetsbevakaren/");

...bör funka fint...

Nej, samma sak där.

Warning: file("http://www.aftonbladet.se/telegram/nyhetsbevakaren/") - No such file or directory in /customers/mindoman.se/mindoman.se/httpd.www/test.php on line 37

Om jag däremot hämtar en lokal fil, t ex samma som jag testar med, så går det:

file("test.php");

:(

??

Marcus 2004-02-19 05:30

Citat:

Ursprungligen postat av aikon
Citat:

Originally posted by -marcuss@Feb 19 2004, 01:54
Citat:

Ursprungligen postat av aikon
Tänkte testa lite med den här tekniken som ni använder för att hämta nyhetsrubriker. Hur hämtar ni sidan? Jag får inte denna kod att fungera, t ex från AB:

$url = "http://www.aftonbladet.se/telegram/nyhetsbevakaren/";
$file = fopen ($url, "r");

Det verkar som PHP inte tillåter att externa filer öppnas. Använder ni något annat sätt?

$file = file("http://www.aftonbladet.se/telegram/nyhetsbevakaren/");

...bör funka fint...


Nej, samma sak där.

Warning: file("http://www.aftonbladet.se/telegram/nyhetsbevakaren/") - No such file or directory in /customers/mindoman.se/mindoman.se/httpd.www/test.php on line 37

Om jag däremot hämtar en lokal fil, t ex samma som jag testar med, så går det:

file("test.php");

:(

??

verkar konstigt.

funkar då fint för mig, som du kan se här, med koden enligt nedan.
Kod:

<?php
$news = @file("http://www.aftonbladet.se/telegram/nyhetsbevakaren");
while (list($rownr,$row) = each ($news)) {
 * * * *echo "$row";
}
?>


Standout 2004-02-19 10:17

Vissa webbhotell ställer in PHP så att det inte går att plocka data från andra servrar.

aikon 2004-02-19 12:16

Citat:

Originally posted by Standout@Feb 19 2004, 08:17
Vissa webbhotell ställer in PHP så att det inte går att plocka data från andra servrar.
Misstänkte nåt sånt.

marcuss, jome och andra, vilka webbhotell ligger ni på som tillåter det? Om det möjligen är känsligt, skicka ett PM! :)

Standout 2004-02-19 13:30

Du hittar mer information på http://se2.php.net/manual/sv/ref.filesyste...allow-url-fopen

Jag tror att det flesta webbhotell stödjer allow_url_fopen. Jag testade det på Fs-Data, Aleborg och mitt eget (standout.se) och det fungerar fint. På vilket webbhotell ligger du?

aikon 2004-02-19 13:56

b-one...

Supporten svarade snabbt, och bekräftade att det inte går. De sa också att webbhotell inte brukar tillåta det! Vill väl inte att man byter..

Nämn gärna fler som stödjer det. Hur är det med box.se och 99kronor? Jag står i begrepp att byta hotell ändå.

Standout 2004-02-19 14:49

Det enklaste är nog att skriva till webbhotellen och fråga.

PKaze 2004-02-19 15:04

Citat:

Originally posted by aikon@Feb 19 2004, 11:56
Nämn gärna fler som stödjer det.
www.oderland.se stödjer det.
Jag har det webhotellet till ett flertal domäner, och det fungerar kanonbra. Årskostnad 250 kr för bronsabonnemagnet.

/Peter

aikon 2004-02-19 16:21

Tackar för alla svar. Oderland ser verkligen bra ut. Men det är lite av en djungel. Är rätt ny på att veta lite bättre vad jag vill ha (b-one blev det bara på reklamen... :wacko: ), och skulle behöva en bra översikt över alla webhotell med samlad info om vad de stödjer och inte stödjer, kostar, och förstås kundernas omdömen.

Nu börjar vi lämna ämnet och jag kan fråga vidare på annan plats.

nille 2005-02-23 20:12

Någon som vet om det finns några färdiga script att tanka ner för detta som det bara är att modifiera?

ZN 2005-02-24 21:25

box.se stödjer INTE det.


Alla tider är GMT +2. Klockan är nu 12:57.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson