FAQ |
Kalender |
![]() |
#11 | ||
|
|||
Nykomling
|
HEJ Du
en fråga vilket språk tänker du skriva den i ?? samt vilken databastyp har du tänkt? mvh Chatis |
||
![]() |
![]() |
![]() |
#12 | ||
|
|||
Flitig postare
|
Citat:
När de kommer till programmerings biten så hade ja väl tänkt mig PHP och MySQL. Frågar du mig så säger ja jämmt att det finns inget man inte kan göra med php på webben ![]() |
||
![]() |
![]() |
![]() |
#13 | ||
|
|||
Klarade millennium-buggen
|
Ledsen att behöva knäcka dina illusioner, men du får nog använda något mera än PHP & MySQL för det här projektet.
PHP är sjukt ickeoptimalt för uppgiften att samla in data, delvis för att det inte är nåt vidare på att tråda, delvis för att det är lååångtsamt. Du kan säker använda MySQL för att spara datan, även om du på sikt kommer att få samma problem som google haft med 32bitars index (eller vad det nu var för siffra) , då MySQL inte stödjer obegränsat med data i sina tabeller. Sen, för själva hashalgoritmen/funktionen som definerar hur en viss sida "är" i ditt index, den måste vara tokigt mycket optimerad för att du skall kunna ha nån rimlig chans att ens indexera alla startsidor på alla nätets domäner. Tänk på att det inte räcker med att "indexera" allting, utan att du även måste kunna hålla ditt index uppdaterat. Mao så måste du designa din kod så att den klarar av att uppdatera allting på mindre än ett par dagar. (Självklart uppdaterar du inte _allting_ hela tiden, men du får vikta vilka sidor som uppdateras ofta osv). Lycka till! |
||
![]() |
![]() |
![]() |
#14 | ||
|
|||
Flitig postare
|
det är ju lite med tanken bakom att endast visa 50-100 sidor per sökord. jag ska se om det inte finns några nya förbättringar med php 5 eller om jag inte missat någon bra list funktion, annars har ja en polare som är ganska bra på funktionell programmering, språk som haskell är sjukt bra när det kommer till listor osv.
det allra enklaste vore att sätta allt under ett cronjob som själv uppdaterar all info. då vår man väl ladda ner runt 20GB (skulle ja gissa på) sidor varje vecka... ![]() |
||
![]() |
![]() |
![]() |
#15 | ||
|
|||
Klarade millennium-buggen
|
Hur skall du avgöra vilka sidor som är viktiga då? Utan att ladda hem alla sidor dvs?
20 gb kommer du inte särskilt långt med :-) En sida kanske är 5kb stor, då kan du ladda hem 4 miljoner sidor i veckan, google har fyra miljarder sidor i sitt index... Testa 20,000 gb ![]() |
||
![]() |
![]() |
![]() |
#16 | ||
|
|||
Nykomling
|
hej Dee
skickar dej ett mail / pm i morgon när jag är lite piggare =) ![]() |
||
![]() |
![]() |
![]() |
#17 | ||
|
|||
Flitig postare
|
jo, de där problemet med att få scriptet att avgöra vilka sidor som har bäst kvalité kommer in. Hittar man en smart lösning så kanske man inte behöver ladda ner alla sidor.. de mest de ja e ute efter om ja nu lyckas kläcka något dom kommande månaderna hehe (kan tänka mig att man behöver en hel del >matatematik< här...). Sedan kan man komprimera sidorna innan man läser dom speciellt med php som har funktioner som tex struntar i att läsa html kod osv.
|
||
![]() |
![]() |
![]() |
#18 | ||
|
|||
Medlem
|
Citat:
Jag kan tänka mig att du har tänkt att ditt "script" skall "besöka" sidor och utvärdera dem, ellerhur? Men vad tror det att "besöka" en sida innebär? Jo att den laddas ner. /MJ |
||
![]() |
![]() |
![]() |
#19 | |||
|
||||
Klarade millennium-buggen
|
Japp, ovanstående talare har rätt.
Kan du inte på ett initialt stadium avgöra vilka sidor du vill besöka, alltså en mix mellan typ ODP och en spindel? Alltså att du kanske först och främst satsar på en region, ex sverige (avgör via IP) där du utesluter x antal domäner från en lista, typ allt från passagen etc. eller ha en lista du sätter upp för siter du ska idexera, exempelvis att köra via ODP som faktiskt är någotsånär gallrat av människor. Då får du iaf fördelen över ODP att du har alla ODP sidor indexerade, och inte bara sökbara via en beskrivning som ODP har idag (nu kanske jag har tokfel men jag tror inte ODP indexerar upp de siter som inkluderas) Sen att säga att ex PHP ska indexera sidor...varför? Det borde vara en kompilerad mjukvara på en server som både spindlar och indexerar, helt skillt ifrån allt vad websidorna eller "webspråken" heter. |
|||
![]() |
![]() |
![]() |
#20 | ||
|
|||
Flitig postare
|
Det går alldeles utmärkt att skriva och driva en "ok" sökmotor med PHP och MySQL och köra den på en hemdator (eller i värsta fall ett webbhotell). Det viktiga är inte hårdvara och snabb kod, utan bra idéer och smarta implementeringar.
Titta bara på http://www.fybersearch.com . Fybersearch är byggt av en "tonåring", är baserad på PHP och MySQL, har inte så många sidor indexerade, men anses ända ha potential. Fybersearch har nämnts i ett gäng tidningarartiklar, som t.ex.: http://moneycentral.msn.com/content/CNBCTV...orts/P91256.asp Fler sajter som skriver om Fybersearch hittas här: http://www.google.com/search?hl=en&lr=&ie=...com&btnG=Search Kan du göra något liknande, och är beredd att satsa på projektet, så tror jag det finns en rimlig chans att något större sökföretag är villig att anställa dig eller upplåta resurser/pengar för fortsatt utveckling. |
||
![]() |
![]() |
Svara |
|
|