WN - Söker feedback för site crawler jag byggt

WN (https://www.wn.se/forum/index.php)

- Feedback (https://www.wn.se/forum/forumdisplay.php?f=20)

- - Söker feedback för site crawler jag byggt (https://www.wn.se/forum/showthread.php?t=1064620)

Jim_Westergren

2015-04-14 22:37

Söker feedback för site crawler jag byggt

Hej!

Jag byggde ytterligare ett verktyg:
http://seocalc.net/site-crawler.php

Det är ungefär som screaming frog fast ger en bättre överblick med vad som är viktigt gällande SEO.

Vill gärna höra er feedback och önskemål.

x264	2015-04-14 23:10

Du borde stödja https också :)

Sedan verkar den inte stödja åäö är det korrekt?

Tog wn som exempel.

Lite väl vit kanske också

Annars trevlig tjänst :)

EDIT:

Tar väldigt lång tid, crawlar du med PHP eller? (med tanke på site-crawler.php)

Jim_Westergren

2015-04-14 23:48

Tack!

https funkar för det mesta. wegot.se funkar till exempel. Men ibland inte (todaysweb.se). Håller på att undersöka orsaken.

åäö ska inte vara problem. Kan du ge exempel?

Ja, alltså designen är bara temporär.

PHP är det språk jag kan så det jag har byggt det i. Det var svårt att lösa paralellkörning men jag löste det genom att skapa iframes. Vet att det finns bättre språk men tyvärr inget jag behärskar (ännu).

x264	2015-04-15 04:51

Ta WN t.ex.

"Mtesplatsen fr svenska webmasters"

"Allmnt - WN"

"Eget domn mail Allmnt"

Jim_Westergren

2015-04-15 15:52

Måste bero på att WN använder ISO-8859-1, åäö brukar funka.
Felet måste ligga i dessa 2 rader:

$dom = new DOMDocument('1.0');
@$dom->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));

Någon som vet lösningen?

Johnny Viking

2015-04-15 16:00

Du behöver väl detecta encoding först, sen konvertera till UTF-8 därifrån?

Jim_Westergren

2015-04-15 21:55

Jag verkar ha löst encoding.

Gällande att wn.se var seg berodde på avsaknad av robots.txt och att jag missade att cacha det faktum.

Tack för feedback än så länge, fortsätt gärna :)

Clarence

2015-04-15 22:01

Du behöver läsa eventuell encoding från headers innan du vet hur du ska tolka datan du fått. WN skickar "Content-Type: text/html; charset=ISO-8859-1".

Det kan även finnas encoding i meta taggar, ofantligt dumt påhitt att stödja att man först ska behöva läsa dokumentet och sen försöka tyda det, men det existerar och "funkar" i browsers likt förbannat.

Alla tider är GMT +2. Klockan är nu 08:18.