WN

WN (https://www.wn.se/forum/index.php)
-   Feedback (https://www.wn.se/forum/forumdisplay.php?f=20)
-   -   Söker feedback för site crawler jag byggt (https://www.wn.se/forum/showthread.php?t=1064620)

Jim_Westergren 2015-04-14 21:37

Söker feedback för site crawler jag byggt
 
Hej!

Jag byggde ytterligare ett verktyg:
http://seocalc.net/site-crawler.php

Det är ungefär som screaming frog fast ger en bättre överblick med vad som är viktigt gällande SEO.

Vill gärna höra er feedback och önskemål.

x264 2015-04-14 22:10

Du borde stödja https också :)

Sedan verkar den inte stödja åäö är det korrekt?

Tog wn som exempel.


Lite väl vit kanske också

Annars trevlig tjänst :)

EDIT:

Tar väldigt lång tid, crawlar du med PHP eller? (med tanke på site-crawler.php)

Jim_Westergren 2015-04-14 22:48

Tack!

https funkar för det mesta. wegot.se funkar till exempel. Men ibland inte (todaysweb.se). Håller på att undersöka orsaken.

åäö ska inte vara problem. Kan du ge exempel?

Ja, alltså designen är bara temporär.

PHP är det språk jag kan så det jag har byggt det i. Det var svårt att lösa paralellkörning men jag löste det genom att skapa iframes. Vet att det finns bättre språk men tyvärr inget jag behärskar (ännu).

x264 2015-04-15 03:51

Ta WN t.ex.

"Mtesplatsen fr svenska webmasters"

"Allmnt - WN"

"Eget domn mail Allmnt"

Jim_Westergren 2015-04-15 14:52

Måste bero på att WN använder ISO-8859-1, åäö brukar funka.
Felet måste ligga i dessa 2 rader:

$dom = new DOMDocument('1.0');
@$dom->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));

Någon som vet lösningen?

Johnny Viking 2015-04-15 15:00

Du behöver väl detecta encoding först, sen konvertera till UTF-8 därifrån?

Jim_Westergren 2015-04-15 20:55

Jag verkar ha löst encoding.

Gällande att wn.se var seg berodde på avsaknad av robots.txt och att jag missade att cacha det faktum.

Tack för feedback än så länge, fortsätt gärna :)

Clarence 2015-04-15 21:01

Du behöver läsa eventuell encoding från headers innan du vet hur du ska tolka datan du fått. WN skickar "Content-Type: text/html; charset=ISO-8859-1".

Det kan även finnas encoding i meta taggar, ofantligt dumt påhitt att stödja att man först ska behöva läsa dokumentet och sen försöka tyda det, men det existerar och "funkar" i browsers likt förbannat.


Alla tider är GMT +2. Klockan är nu 21:36.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson