Visa ett inlägg
Oläst 2016-02-15, 13:08 #19
Jim_Westergrens avatar
Jim_Westergren Jim_Westergren är inte uppkopplad
Har WN som tidsfördriv
 
Reg.datum: May 2005
Inlägg: 1 058
Jim_Westergren Jim_Westergren är inte uppkopplad
Har WN som tidsfördriv
Jim_Westergrens avatar
 
Reg.datum: May 2005
Inlägg: 1 058
Jag har kodat det själv och det körs på en enskild dedikerad server.
Det är Nginx, APCu, PHP-fpm och MySQL (innodb).
Det är en massa cron job som körs parallellt.

Det är 3 key metrics som jag mäter varje 30 sekund:

MySQL threads connected: över 250 så pausar jag cron-jobben
Server load: över 14 så så pausar jag cron-jobben
Active PHP processes: över 250 så pausar jag cron-jobben

Om mitt system pausar cron-jobben så körs det igång igen så fort alla värden är tillräckligt ok.

Det har varit ett stort arbete att optimera cron-jobben och servern för att crawla i hög kapacitet utan att det påverkar prestanda för resten av systemet. Men det funkar riktigt bra nu faktiskt.
Har även varit en utmaning att lösa uppdelning av databastabellerna med deras index osv.

Har varit mycket bra lärdom. Och gisses vad mycket spam som finns där ute! Det finns vissa sidor som har över 1 miljoner dofollow länkar på en enskild sida till exempel.

Jag kanske har mer tid framöver att skriva mer tekniskt om detta projekt.
Jim_Westergren är inte uppkopplad   Svara med citatSvara med citat