Kom ihåg mig?
Home Menu

Menu


Nytt sökmotor projekt

 
Ämnesverktyg Visningsalternativ
Oläst 2004-08-22, 22:45 #11
Chatis Chatis är inte uppkopplad
Nykomling
 
Reg.datum: Feb 2004
Inlägg: 20
Chatis Chatis är inte uppkopplad
Nykomling
 
Reg.datum: Feb 2004
Inlägg: 20
HEJ Du
en fråga vilket språk tänker du skriva den i ?? samt vilken databastyp har du tänkt?
mvh Chatis
Chatis är inte uppkopplad   Svara med citatSvara med citat
Oläst 2004-08-22, 23:13 #12
dee dee är inte uppkopplad
Flitig postare
 
Reg.datum: Jun 2004
Inlägg: 318
dee dee är inte uppkopplad
Flitig postare
 
Reg.datum: Jun 2004
Inlägg: 318
Citat:
Originally posted by Lundmark@Aug 22 2004, 22:24
Sök på "LIX läsbarhetsindex" på Google, så får du några bra träffar överst

Jag kan även rekomendera en bok på vägen "Informationssökning på internet" ISBN 9144031785
Kanon, tack!

När de kommer till programmerings biten så hade ja väl tänkt mig PHP och MySQL. Frågar du mig så säger ja jämmt att det finns inget man inte kan göra med php på webben
dee är inte uppkopplad   Svara med citatSvara med citat
Oläst 2004-08-22, 23:22 #13
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
Ledsen att behöva knäcka dina illusioner, men du får nog använda något mera än PHP & MySQL för det här projektet.

PHP är sjukt ickeoptimalt för uppgiften att samla in data, delvis för att det inte är nåt vidare på att tråda, delvis för att det är lååångtsamt.

Du kan säker använda MySQL för att spara datan, även om du på sikt kommer att få samma problem som google haft med 32bitars index (eller vad det nu var för siffra) , då MySQL inte stödjer obegränsat med data i sina tabeller. Sen, för själva hashalgoritmen/funktionen som definerar hur en viss sida "är" i ditt index, den måste vara tokigt mycket optimerad för att du skall kunna ha nån rimlig chans att ens indexera alla startsidor på alla nätets domäner. Tänk på att det inte räcker med att "indexera" allting, utan att du även måste kunna hålla ditt index uppdaterat. Mao så måste du designa din kod så att den klarar av att uppdatera allting på mindre än ett par dagar. (Självklart uppdaterar du inte _allting_ hela tiden, men du får vikta vilka sidor som uppdateras ofta osv).

Lycka till!
grazzy är inte uppkopplad   Svara med citatSvara med citat
Oläst 2004-08-23, 00:22 #14
dee dee är inte uppkopplad
Flitig postare
 
Reg.datum: Jun 2004
Inlägg: 318
dee dee är inte uppkopplad
Flitig postare
 
Reg.datum: Jun 2004
Inlägg: 318
det är ju lite med tanken bakom att endast visa 50-100 sidor per sökord. jag ska se om det inte finns några nya förbättringar med php 5 eller om jag inte missat någon bra list funktion, annars har ja en polare som är ganska bra på funktionell programmering, språk som haskell är sjukt bra när det kommer till listor osv.

det allra enklaste vore att sätta allt under ett cronjob som själv uppdaterar all info. då vår man väl ladda ner runt 20GB (skulle ja gissa på) sidor varje vecka... fast tanken e ju att inte läsa hela sidan utan bara de viktigaste, man får ju inte bränna för mycke bandwidth hehe.
dee är inte uppkopplad   Svara med citatSvara med citat
Oläst 2004-08-23, 00:40 #15
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
Hur skall du avgöra vilka sidor som är viktiga då? Utan att ladda hem alla sidor dvs?

20 gb kommer du inte särskilt långt med :-)

En sida kanske är 5kb stor, då kan du ladda hem 4 miljoner sidor i veckan, google har fyra miljarder sidor i sitt index...

Testa 20,000 gb
grazzy är inte uppkopplad   Svara med citatSvara med citat
Oläst 2004-08-23, 00:41 #16
Chatis Chatis är inte uppkopplad
Nykomling
 
Reg.datum: Feb 2004
Inlägg: 20
Chatis Chatis är inte uppkopplad
Nykomling
 
Reg.datum: Feb 2004
Inlägg: 20
hej Dee
skickar dej ett mail / pm i morgon när jag är lite piggare =)
Chatis är inte uppkopplad   Svara med citatSvara med citat
Oläst 2004-08-23, 00:52 #17
dee dee är inte uppkopplad
Flitig postare
 
Reg.datum: Jun 2004
Inlägg: 318
dee dee är inte uppkopplad
Flitig postare
 
Reg.datum: Jun 2004
Inlägg: 318
jo, de där problemet med att få scriptet att avgöra vilka sidor som har bäst kvalité kommer in. Hittar man en smart lösning så kanske man inte behöver ladda ner alla sidor.. de mest de ja e ute efter om ja nu lyckas kläcka något dom kommande månaderna hehe (kan tänka mig att man behöver en hel del >matatematik< här...). Sedan kan man komprimera sidorna innan man läser dom speciellt med php som har funktioner som tex struntar i att läsa html kod osv.
dee är inte uppkopplad   Svara med citatSvara med citat
Oläst 2004-08-23, 07:54 #18
mattiasjarnhall mattiasjarnhall är inte uppkopplad
Medlem
 
Reg.datum: Feb 2004
Inlägg: 90
mattiasjarnhall mattiasjarnhall är inte uppkopplad
Medlem
 
Reg.datum: Feb 2004
Inlägg: 90
Citat:
Originally posted by dee@Aug 23 2004, 00:52
jo, de där problemet med att få scriptet att avgöra vilka sidor som har bäst kvalité kommer in. Hittar man en smart lösning så kanske man inte behöver ladda ner alla sidor.. de mest de ja e ute efter om ja nu lyckas kläcka något dom kommande månaderna hehe (kan tänka mig att man behöver en hel del >matatematik< här...).
Det finns ju INGEN lösning på det problemet. Du måste, vare sig du vill det eller inte, ladda ner sidorna för att kunna utvärdera hurvida de har "bra" kvalité eller inte.
Jag kan tänka mig att du har tänkt att ditt "script" skall "besöka" sidor och utvärdera dem, ellerhur? Men vad tror det att "besöka" en sida innebär? Jo att den laddas ner.

/MJ
mattiasjarnhall är inte uppkopplad   Svara med citatSvara med citat
Oläst 2004-08-23, 08:20 #19
Roberts avatar
Robert Robert är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Jan 2004
Inlägg: 2 103
Robert Robert är inte uppkopplad
Klarade millennium-buggen
Roberts avatar
 
Reg.datum: Jan 2004
Inlägg: 2 103
Japp, ovanstående talare har rätt.

Kan du inte på ett initialt stadium avgöra vilka sidor du vill besöka, alltså en mix mellan typ ODP och en spindel? Alltså att du kanske först och främst satsar på en region, ex sverige (avgör via IP) där du utesluter x antal domäner från en lista, typ allt från passagen etc. eller ha en lista du sätter upp för siter du ska idexera, exempelvis att köra via ODP som faktiskt är någotsånär gallrat av människor. Då får du iaf fördelen över ODP att du har alla ODP sidor indexerade, och inte bara sökbara via en beskrivning som ODP har idag (nu kanske jag har tokfel men jag tror inte ODP indexerar upp de siter som inkluderas)

Sen att säga att ex PHP ska indexera sidor...varför? Det borde vara en kompilerad mjukvara på en server som både spindlar och indexerar, helt skillt ifrån allt vad websidorna eller "webspråken" heter.
Robert är inte uppkopplad   Svara med citatSvara med citat
Oläst 2004-08-23, 09:24 #20
nicclas nicclas är inte uppkopplad
Flitig postare
 
Reg.datum: May 2003
Inlägg: 340
nicclas nicclas är inte uppkopplad
Flitig postare
 
Reg.datum: May 2003
Inlägg: 340
Det går alldeles utmärkt att skriva och driva en "ok" sökmotor med PHP och MySQL och köra den på en hemdator (eller i värsta fall ett webbhotell). Det viktiga är inte hårdvara och snabb kod, utan bra idéer och smarta implementeringar.

Titta bara på http://www.fybersearch.com . Fybersearch är byggt av en "tonåring", är baserad på PHP och MySQL, har inte så många sidor indexerade, men anses ända ha potential. Fybersearch har nämnts i ett gäng tidningarartiklar, som t.ex.: http://moneycentral.msn.com/content/CNBCTV...orts/P91256.asp
Fler sajter som skriver om Fybersearch hittas här:
http://www.google.com/search?hl=en&lr=&ie=...com&btnG=Search

Kan du göra något liknande, och är beredd att satsa på projektet, så tror jag det finns en rimlig chans att något större sökföretag är villig att anställa dig eller upplåta resurser/pengar för fortsatt utveckling.
nicclas är inte uppkopplad   Svara med citatSvara med citat
Svara


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 01:22.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017