WN

WN (https://www.wn.se/forum/index.php)
-   Feedback (https://www.wn.se/forum/forumdisplay.php?f=20)
-   -   Söker feedback för DomainStats.io (https://www.wn.se/forum/showthread.php?t=1065888)

nosnaj 2015-11-11 15:26

Citat:

Ursprungligen postat av Jim_Westergren (Inlägg 20514146)
Ja, det blev en 403 forbidden. Men annan data gick bra.

Såg det, frågan är väl då hur lång tid det tar innan ni hämtar data på nytt?
Vore kul få lite data om sidan :)

Jim_Westergren 2015-11-11 17:59

Fixat http://domainstats.io/missatsamtal.se :)
Jag gjorde stöd för http://domainstats.io/missatsamtal.se?refresh som hämtar på nytt.

Jim_Westergren 2015-11-11 19:04

Ändrade till ?update för de som undrar varför det inte går. Gick inte att redigera mitt inlägg.

Jim_Westergren 2015-12-11 20:53

Nu är ny design klar + logga + favicon:
http://domainstats.io/wn.se

Även API är precis klart! :)
http://api.domainstats.io/

Vad tycker ni?
Några frågor?

Swag 2015-12-11 22:30

Sidan tar fram informationen snabbt, bra.
Jag har inte fullt koll på alla siffror och ingår kanske inte i den huvudsakliga målgruppen.
Ett par kommentarer:
1: PR, Page Rank kommer upp ibland, är inte detta nedlagt och därmed felvisande numera?
2: Vad är bra och dåligt i olika poäng? Högre=bättre men vad är intervallet på vissa? Majestic visar 100 i grafen så där ser man. Detta är kanske självklart för många, men för mig säger flera värden ingenting.

Nu är jag som sagt troligen inte målgruppen och om detta blir ett betalverktyg inte heller den som skaffar tjänsten. Upplägget ser i alla fall mycket bra ut i mina ögon! Enkelt och snabbt.

Jim_Westergren 2015-12-14 16:38

Tack.

1. Siffran PageRank är inte alls nedlagd och är en viktig siffra från Google. Problemet är den publika toolbar PageRank som inte uppdaterats på över ett år. Men jag tycker den ändå har ett visst värde och ger en viss historisk fingervisning om den är hög.

2. För att bättre förstå siffrorna så är det viktigt att jämföra siffrorna med andra liknande domäner, då först kan du förstå vad som är bra eller dåligt. Det är samma med Majestic, att siffrorna är på en skala mellan 0-100 säger inget om du inte jämför.

Jim_Westergren 2016-02-15 10:22

Jag crawlar numera mer av webben och sparar länkar som jag visar i Domainstats.
Just nu har jag sparat 259 miljoner länkar och jag sparar ca 5 miljoner mer per dag.
Jag sparar endast länkar utan nofollow och på sidor från startsidor eller undersida 1 nivå från startsidan.
Denna data visas nu i Domainstats tillsammans med data om mest använda ankartexter, IP från länkande sajter och TLDs.

Lite framöver vill jag även skapa en egen länkkraft siffra och det är mycket spännande.

nosnaj 2016-02-15 12:51

Citat:

Ursprungligen postat av Jim_Westergren (Inlägg 20515922)
Jag crawlar numera mer av webben och sparar länkar som jag visar i Domainstats.
Just nu har jag sparat 259 miljoner länkar och jag sparar ca 5 miljoner mer per dag.
Jag sparar endast länkar utan nofollow och på sidor från startsidor eller undersida 1 nivå från startsidan.
Denna data visas nu i Domainstats tillsammans med data om mest använda ankartexter, IP från länkande sajter och TLDs.

Lite framöver vill jag även skapa en egen länkkraft siffra och det är mycket spännande.

Man (läs jag) blir lite nyfiken hur det fungerar tekniskt att crawla och hålla så många sidor färska och uppdaterade. Visst, man kan gå igenom dom en efter en, men det borde ju börja ta sin lilla tid och antar du köra massa saker parallellt?
Kodar du allt inhouse, vad kodas det i osv? En teknisk bloggpost är önskad :)

Jim_Westergren 2016-02-15 13:08

Jag har kodat det själv och det körs på en enskild dedikerad server.
Det är Nginx, APCu, PHP-fpm och MySQL (innodb).
Det är en massa cron job som körs parallellt.

Det är 3 key metrics som jag mäter varje 30 sekund:

MySQL threads connected: över 250 så pausar jag cron-jobben
Server load: över 14 så så pausar jag cron-jobben
Active PHP processes: över 250 så pausar jag cron-jobben

Om mitt system pausar cron-jobben så körs det igång igen så fort alla värden är tillräckligt ok.

Det har varit ett stort arbete att optimera cron-jobben och servern för att crawla i hög kapacitet utan att det påverkar prestanda för resten av systemet. Men det funkar riktigt bra nu faktiskt.
Har även varit en utmaning att lösa uppdelning av databastabellerna med deras index osv.

Har varit mycket bra lärdom. Och gisses vad mycket spam som finns där ute! Det finns vissa sidor som har över 1 miljoner dofollow länkar på en enskild sida till exempel.

Jag kanske har mer tid framöver att skriva mer tekniskt om detta projekt.

gregoff 2016-02-15 14:50

Citat:

Ursprungligen postat av Jim_Westergren (Inlägg 20515928)
Har varit mycket bra lärdom. Och gisses vad mycket spam som finns där ute! Det finns vissa sidor som har över 1 miljoner dofollow länkar på en enskild sida till exempel.

Jag kanske har mer tid framöver att skriva mer tekniskt om detta projekt.

En miljon dofollow-länkar? Borde inte sökmotorspindlar smälla ganska hårt på fingrarna hos dessa webbplatser som gör så? Eller kommer man fortfarande undan med sånna tricks?

Snygg sida förövrigt! Ska bli intressant att följa!


Alla tider är GMT +2. Klockan är nu 15:32.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson