![]() |
Hej,
Jag kommer inom kort att sätta igång och börja bygga en helt ny sökmotor från scratch. Målet är inte att tjäna pengar utan att bara att bygga en ur rent intresse (för att utvecklas mer som programmerare). Jag undrar om ni kanske har några ideer eller förslag på vad man kan ha med. Jag tänkte göra så att jag endast visar 50-100 resultat per sökning iställer för 2.000.000 för man tittar ändå aldrig så långt... lite viktigare att satsa på kvalité istället (hur nu de kommer att se ut). Jag har dessutom lite andra ideer (som inte finns, va ja vet) som jag vill ska bli en överaskning =) |
Citat:
|
Citat:
|
Låter ganska pretentiöst. Vilken nivå hade du tänkt att lägga dig på? Hur kommer du att driva denna sökmotor rent hårdvarumässigt?
|
Kod:
[[QUOTE] [/CODE] I mitt oxå. Denna tanke har följt mig länge oxå... men när jag börjar räkna på vad skulle kosta o.s.v. så tror jag inte det är någon bra idé En som har gjort ett bra försök är han som har gjort gigablast.com |
Ge mig skäl till att använda din sökmotor istället för google.
Du kommer nog få grova problem med att slå in dig i den marknaden, tyvärr. |
jag kommer förmodligen lägga ner någon timme per dag efter att jag har planerat ut hur hela proceduren ska se ut. De ju oftast planerandet som tar sån tid speciellt om man nu vill få de att se bra ut.
foks: Precis, dessutom sparar jag hiskeligt med webb utrymme om jag inte behöver lagra miljontals sidor =) Jester: Jag kommer inte stressa med att få ut söktjänsten eftersom jag vill att den ska bli perfekt när den väl släpps. De lätt hänt att man lägger ut den på nätet lite halv klar så får man massa klagomål sen hehe. Vet faktiskt inte hur jag ska göra med hårdvaran. Tänkte först köra med vanligt webbhotell för att se hur mycket resurser den kommer att dra och om den sedan skulle bli populär så får ja skaffa en egen server. De fina e att jag inte planerar på att tjäna pengar på den till en början utan vill få den att bli helt ren å fin. Förhoppningsvis så kommer det att uppskattas av besökarna. Lundmark: Jag kommer inte att lägga ner några egna pengar på marknadsföring osv så de borde inte kosta så mycker att bara få upp den. Om man sedan gör bra ifrån sig så e de ju mäniskorna som surfar på motorn och även andra sajter som kommer att skriva och berätta om den. Som sagt det spelar ingen större roll för mig om den blir jätte poppis eller inte. Jag kommer dock att försöka att skapa något helt nytt när det kommer till sökfunktionen (om ja nu kan få ihop de, de kan bli ganska avancerat). Väntar med viskningar tills vidare =) Fast en sak som jag inte är helt hundra på är hur man ska få sajter med bra kvalité att ranka långt upp. Google å andra motorer kör ju att de kollar antal sajter som länkar till dom osv. Gillar inte det då man kan använda olika script som gör att google och andra motorer hamnar i en stor loop med massa sidor som länkar till ens egen fast de bara e ett skript som gör sidorna hela tiden... detta är ju förbjudet men förekommer.. dessutom så ger det här systemet ingen möjlighet till mindre sajter att ranka högt fast de kanske är väldigt bra. Rankingen består ju av många faktorer men ändå... fast nu när jag tänker riktigt hårt så är de ju nästan omöjligt... Eller om man nu handplockar sajter men det är en helt annan kaka. Kommer behöva grubbla på detta ett bra tag till =) Motorn kommer väl bli klar om cirka 4-6 månader om inte mer, beror lite på hur mycket tid jag har. |
Tja, använd dig utav LIX (läsbarhetsindex). Tror inte Google gör det, så det kan ju få bli en av dina "kvalitets garanter"... =)
|
Citat:
|
Sök på "LIX läsbarhetsindex" på Google, så får du några bra träffar överst :)
Jag kan även rekomendera en bok på vägen "Informationssökning på internet" ISBN 9144031785 |
HEJ Du
en fråga vilket språk tänker du skriva den i ?? samt vilken databastyp har du tänkt? mvh Chatis |
Citat:
När de kommer till programmerings biten så hade ja väl tänkt mig PHP och MySQL. Frågar du mig så säger ja jämmt att det finns inget man inte kan göra med php på webben :rolleyes: |
Ledsen att behöva knäcka dina illusioner, men du får nog använda något mera än PHP & MySQL för det här projektet.
PHP är sjukt ickeoptimalt för uppgiften att samla in data, delvis för att det inte är nåt vidare på att tråda, delvis för att det är lååångtsamt. Du kan säker använda MySQL för att spara datan, även om du på sikt kommer att få samma problem som google haft med 32bitars index (eller vad det nu var för siffra) , då MySQL inte stödjer obegränsat med data i sina tabeller. Sen, för själva hashalgoritmen/funktionen som definerar hur en viss sida "är" i ditt index, den måste vara tokigt mycket optimerad för att du skall kunna ha nån rimlig chans att ens indexera alla startsidor på alla nätets domäner. Tänk på att det inte räcker med att "indexera" allting, utan att du även måste kunna hålla ditt index uppdaterat. Mao så måste du designa din kod så att den klarar av att uppdatera allting på mindre än ett par dagar. (Självklart uppdaterar du inte _allting_ hela tiden, men du får vikta vilka sidor som uppdateras ofta osv). Lycka till! |
det är ju lite med tanken bakom att endast visa 50-100 sidor per sökord. jag ska se om det inte finns några nya förbättringar med php 5 eller om jag inte missat någon bra list funktion, annars har ja en polare som är ganska bra på funktionell programmering, språk som haskell är sjukt bra när det kommer till listor osv.
det allra enklaste vore att sätta allt under ett cronjob som själv uppdaterar all info. då vår man väl ladda ner runt 20GB (skulle ja gissa på) sidor varje vecka... :rolleyes: fast tanken e ju att inte läsa hela sidan utan bara de viktigaste, man får ju inte bränna för mycke bandwidth hehe. |
Hur skall du avgöra vilka sidor som är viktiga då? Utan att ladda hem alla sidor dvs?
20 gb kommer du inte särskilt långt med :-) En sida kanske är 5kb stor, då kan du ladda hem 4 miljoner sidor i veckan, google har fyra miljarder sidor i sitt index... Testa 20,000 gb :) |
hej Dee
skickar dej ett mail / pm i morgon när jag är lite piggare =) ;) |
jo, de där problemet med att få scriptet att avgöra vilka sidor som har bäst kvalité kommer in. Hittar man en smart lösning så kanske man inte behöver ladda ner alla sidor.. de mest de ja e ute efter om ja nu lyckas kläcka något dom kommande månaderna hehe (kan tänka mig att man behöver en hel del >matatematik< här...). Sedan kan man komprimera sidorna innan man läser dom speciellt med php som har funktioner som tex struntar i att läsa html kod osv.
|
Citat:
Jag kan tänka mig att du har tänkt att ditt "script" skall "besöka" sidor och utvärdera dem, ellerhur? Men vad tror det att "besöka" en sida innebär? Jo att den laddas ner. /MJ |
Japp, ovanstående talare har rätt.
Kan du inte på ett initialt stadium avgöra vilka sidor du vill besöka, alltså en mix mellan typ ODP och en spindel? Alltså att du kanske först och främst satsar på en region, ex sverige (avgör via IP) där du utesluter x antal domäner från en lista, typ allt från passagen etc. eller ha en lista du sätter upp för siter du ska idexera, exempelvis att köra via ODP som faktiskt är någotsånär gallrat av människor. Då får du iaf fördelen över ODP att du har alla ODP sidor indexerade, och inte bara sökbara via en beskrivning som ODP har idag (nu kanske jag har tokfel men jag tror inte ODP indexerar upp de siter som inkluderas) Sen att säga att ex PHP ska indexera sidor...varför? Det borde vara en kompilerad mjukvara på en server som både spindlar och indexerar, helt skillt ifrån allt vad websidorna eller "webspråken" heter. |
Det går alldeles utmärkt att skriva och driva en "ok" sökmotor med PHP och MySQL och köra den på en hemdator (eller i värsta fall ett webbhotell). Det viktiga är inte hårdvara och snabb kod, utan bra idéer och smarta implementeringar.
Titta bara på http://www.fybersearch.com . Fybersearch är byggt av en "tonåring", är baserad på PHP och MySQL, har inte så många sidor indexerade, men anses ända ha potential. Fybersearch har nämnts i ett gäng tidningarartiklar, som t.ex.: http://moneycentral.msn.com/content/CNBCTV...orts/P91256.asp Fler sajter som skriver om Fybersearch hittas här: http://www.google.com/search?hl=en&lr=&ie=...com&btnG=Search Kan du göra något liknande, och är beredd att satsa på projektet, så tror jag det finns en rimlig chans att något större sökföretag är villig att anställa dig eller upplåta resurser/pengar för fortsatt utveckling. |
Jovisst går det bra med MySQL men om man redan ifrån början vill satsa "större" och undvika framtida plattformsbyten så kanske man ska välja en databas som skalar bra och klarar många anrop simultant (ja, eller det vi menar med simultant iaf).
|
Näh, fybersearch e skit. Tyvärr.
Jag submittade min egen site dit för flera månader sedan och han får fortfarande inte upp en enda träffa på min pagerank 6 sida. Den hittar inte heller mitt nick som har ett gäng träffar på nätet på både svenska och internationella sidor. Vidare så finner den exakt 1 träff på mitt rätt så unika namn (Hjalmar) - vilket borde vara lite konstigt med tanke på hur många som heter det i världen ( och om man bara räknar träffarna på google där _jag_ figurerar ). |
"Näh, fybersearch e skit. Tyvärr."
Jo, det håller jag med om. Men det är en väldigt bra början, inte minst på grund av den uppmärksamhet den (och snubben bakom) fått i media. Det tror att han har stora möjligheter att kunna fortsätta driva sitt projekt med en hygglig lön. Att jämföra med ett enmansprojekt med t.ex. Google (som har lika mycket kapital som svenska Ericsson!?) blir ju aldrig rättvist. |
Man ska väl bedöma sökmotorn efter det som finns under huven. jag har inte kollat på fybersearch men det verkar som problemet "bara" är lite data? Potentialen ligger väl i tekniken för utsökning, indexering etc (hur han nu har löst det som gör just hans tjänst såååå bra)
|
"Potentialen ligger väl i tekniken för utsökning, indexering etc"
Nja, i detta fall anser de flesta att potentialen ligger i sorteringen av sökresultaten. Att hämta in många webbsidor snabbt är mycket en fråga om hårdvara, och lite kända tricks, "vanlig" indexering är heller inte "rocket science", och det kan man alltid satsa på då man har fått något som är användbart att fungera. Får man dessutom många besökare (från bra reklam) så är det enkelt att bygga vidare. Att starta med massvis med hårdvara, och inga idéer, är bara dyrt. |
Citat:
|
Jo, ja vet mycket väl att om man läser en sida så laddas den ner. Men man kan med vara lite finurlig och bestämma själv vad man ska läsa. Det går till och med att endast läsa vissa delar på en sida och ignorera andra. De fina e ju att metatabbarna alltid ligger långt upp på sidan också =)
Seda får vi försöka hålla oss inom cirkeln.. jag räknar inte me att bygga en en super motor som kommer att slå google, jag är mest intresserad utav att bygga en "successful" sökmotor. Det känns lite onödigt att behöva gå och lära mig typ Ada eller något annat programmeringsspråk som militären använder bara för att kunna söka snabbare. De teknikerna man väljer som oftast utgör hurvida motorn är snabb eller seg. Jag kollade upp php och det visar sig att php5 med sin nya Zend motor kan prestera mycket bättre än version 4. |
En annan rolig sökmotr som en har gjrot är searchhippo.com.
Om du har funderingar på hur din "serverhall" ska se ut så kan du kolla på www.searchhippo.com/seedcpics.php |
Citat:
|
Citat:
Prestandan kommer enbart bero på databasen vad gäller mjukvara, inte vilket skriptspråk du använder. Flaskhalsen blir antalet samtidiga användare och utsökningen ur databasen (vilken du förhoppninsvis redan har sparat ner där på ett sådant strukturerat sätt att du kan ställa icke-krävande sqlfrågor för att få ut svaren) |
Citat:
Men om man ska fuska lite så kan man göra som metacrawler.com. Den tar dom bästa resultaten från dom största sökmotorerna och visar dom istället. Om de som ligger bakom metacrawler.com har byggt den bra så kan ja tänke mig att de inte ens behöver en databas :lol: |
Citat:
|
det sparar nog en en massa arbete. Men händer det inte att sökmotorerna ändrar sina sidor så man också måste ändra i sina filer?
|
Citat:
|
kostar ett sådant avtal något?
|
Nä, dom sökmotorer jag använder vill ha många sökningar. Men om man ska använda Google så kostar det.
Men det är ju inte lika roligt att göra en sådan sökmotor som en med en egen databas. Håll fast vid din ursprungliga idé. |
jo de ska ja göra, fast de kul att veta hur de fungerar =)
|
En idé som jag tror skulle vara intressant att utveckla är "riktade" sökmotorer. Säg att du är intresserad av sport (eller kanske enbart av fotboll), så kan du skapa en sport-sökmotor. Till sökmotorn pekar du ut några nyhetssajter, några sportsajter och eventuellt någon form av uppslagsverk (typ susning.nu eller annan med mer om sport!?). Marknadsför sedan sökmotorn som en sökmotor enbart för sport och sportresultat, eller enbart fotboll. Jag tror att en sådan skulle kunna bli mycket användbar. Nu är sport (eller fotboll) bara ett exempel, man skulle nog kunna tänka sig bättre ämnen, men vilket ämne som passar beror ju lite på vad du är intresserad av. Det är antagligen roligast, och resultatet blir bäst, om man satsar på ett ämne som man själv är intresserad av.
|
Citat:
|
Citat:
|
Alla tider är GMT +2. Klockan är nu 18:37. |
Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson