WN

WN (https://www.wn.se/forum/index.php)
-   Sökmotorpositionering (https://www.wn.se/forum/forumdisplay.php?f=11)
-   -   Nytt sökmotor projekt (https://www.wn.se/forum/showthread.php?t=3219)

dee 2004-08-22 15:18

Hej,

Jag kommer inom kort att sätta igång och börja bygga en helt ny sökmotor från scratch. Målet är inte att tjäna pengar utan att bara att bygga en ur rent intresse (för att utvecklas mer som programmerare).

Jag undrar om ni kanske har några ideer eller förslag på vad man kan ha med. Jag tänkte göra så att jag endast visar 50-100 resultat per sökning iställer för 2.000.000 för man tittar ändå aldrig så långt... lite viktigare att satsa på kvalité istället (hur nu de kommer att se ut).

Jag har dessutom lite andra ideer (som inte finns, va ja vet) som jag vill ska bli en överaskning =)

foks 2004-08-22 18:05

Citat:

Originally posted by dee@Aug 22 2004, 15:18
Jag undrar om ni kanske har några ideer eller förslag på vad man kan ha med. Jag tänkte göra så att jag endast visar 50-100 resultat per sökning iställer för 2.000.000 för man tittar ändå aldrig så långt... lite viktigare att satsa på kvalité istället (hur nu de kommer att se ut).
Hur kommer den skillnaden att bli i praktiken? Vanliga sökmotorer hittar visserligen 2.000.000 träffar där sökordet är med men visar de mest relevanta först och har därmed bra kvalitet oavsett antal träffar. Jag antar att din sökmotor ska göra samma sak, söka genom hela databasen och visa de tio mest relevanta träffarna först. Sedan spelar det inte någon roll för användaren om han kan se 100 eller 2.000.000 av de träffar som hittats.

ric 2004-08-22 18:32

Citat:


Jag har dessutom lite andra ideer (som inte finns, va ja vet) som jag vill ska bli en överaskning =)

Viska i mitt öra ;)

Jester 2004-08-22 19:14

Låter ganska pretentiöst. Vilken nivå hade du tänkt att lägga dig på? Hur kommer du att driva denna sökmotor rent hårdvarumässigt?

Lundmark 2004-08-22 19:40

Kod:

[[QUOTE]
Jag har dessutom lite andra ideer (som inte finns, va ja vet) som jag vill ska bli en överaskning =)

Viska i mitt öra
[/CODE]

I mitt oxå.

Denna tanke har följt mig länge oxå... men när jag börjar räkna på vad skulle kosta o.s.v. så tror jag inte det är någon bra idé

En som har gjort ett bra försök är han som har gjort gigablast.com

Mario 2004-08-22 19:52

Ge mig skäl till att använda din sökmotor istället för google.

Du kommer nog få grova problem med att slå in dig i den marknaden, tyvärr.

dee 2004-08-22 20:18

jag kommer förmodligen lägga ner någon timme per dag efter att jag har planerat ut hur hela proceduren ska se ut. De ju oftast planerandet som tar sån tid speciellt om man nu vill få de att se bra ut.

foks: Precis, dessutom sparar jag hiskeligt med webb utrymme om jag inte behöver lagra miljontals sidor =)

Jester: Jag kommer inte stressa med att få ut söktjänsten eftersom jag vill att den ska bli perfekt när den väl släpps. De lätt hänt att man lägger ut den på nätet lite halv klar så får man massa klagomål sen hehe. Vet faktiskt inte hur jag ska göra med hårdvaran. Tänkte först köra med vanligt webbhotell för att se hur mycket resurser den kommer att dra och om den sedan skulle bli populär så får ja skaffa en egen server. De fina e att jag inte planerar på att tjäna pengar på den till en början utan vill få den att bli helt ren å fin. Förhoppningsvis så kommer det att uppskattas av besökarna.

Lundmark: Jag kommer inte att lägga ner några egna pengar på marknadsföring osv så de borde inte kosta så mycker att bara få upp den. Om man sedan gör bra ifrån sig så e de ju mäniskorna som surfar på motorn och även andra sajter som kommer att skriva och berätta om den. Som sagt det spelar ingen större roll för mig om den blir jätte poppis eller inte. Jag kommer dock att försöka att skapa något helt nytt när det kommer till sökfunktionen (om ja nu kan få ihop de, de kan bli ganska avancerat). Väntar med viskningar tills vidare =)

Fast en sak som jag inte är helt hundra på är hur man ska få sajter med bra kvalité att ranka långt upp. Google å andra motorer kör ju att de kollar antal sajter som länkar till dom osv. Gillar inte det då man kan använda olika script som gör att google och andra motorer hamnar i en stor loop med massa sidor som länkar till ens egen fast de bara e ett skript som gör sidorna hela tiden... detta är ju förbjudet men förekommer.. dessutom så ger det här systemet ingen möjlighet till mindre sajter att ranka högt fast de kanske är väldigt bra. Rankingen består ju av många faktorer men ändå... fast nu när jag tänker riktigt hårt så är de ju nästan omöjligt... Eller om man nu handplockar sajter men det är en helt annan kaka. Kommer behöva grubbla på detta ett bra tag till =)

Motorn kommer väl bli klar om cirka 4-6 månader om inte mer, beror lite på hur mycket tid jag har.

Robert 2004-08-22 21:28

Tja, använd dig utav LIX (läsbarhetsindex). Tror inte Google gör det, så det kan ju få bli en av dina "kvalitets garanter"... =)

dee 2004-08-22 21:54

Citat:

Originally posted by Robert@Aug 22 2004, 21:28
Tja, använd dig utav LIX (läsbarhetsindex). Tror inte Google gör det, så det kan ju få bli en av dina "kvalitets garanter"... =)
de låter intressant, vet du var ja kan få mer info om de?

Lundmark 2004-08-22 22:24

Sök på "LIX läsbarhetsindex" på Google, så får du några bra träffar överst :)


Jag kan även rekomendera en bok på vägen "Informationssökning på internet" ISBN 9144031785

Chatis 2004-08-22 22:45

HEJ Du
en fråga vilket språk tänker du skriva den i ?? samt vilken databastyp har du tänkt?
mvh Chatis

dee 2004-08-22 23:13

Citat:

Originally posted by Lundmark@Aug 22 2004, 22:24
Sök på "LIX läsbarhetsindex" på Google, så får du några bra träffar överst :)

Jag kan även rekomendera en bok på vägen "Informationssökning på internet" ISBN 9144031785

Kanon, tack!

När de kommer till programmerings biten så hade ja väl tänkt mig PHP och MySQL. Frågar du mig så säger ja jämmt att det finns inget man inte kan göra med php på webben :rolleyes:

grazzy 2004-08-22 23:22

Ledsen att behöva knäcka dina illusioner, men du får nog använda något mera än PHP & MySQL för det här projektet.

PHP är sjukt ickeoptimalt för uppgiften att samla in data, delvis för att det inte är nåt vidare på att tråda, delvis för att det är lååångtsamt.

Du kan säker använda MySQL för att spara datan, även om du på sikt kommer att få samma problem som google haft med 32bitars index (eller vad det nu var för siffra) , då MySQL inte stödjer obegränsat med data i sina tabeller. Sen, för själva hashalgoritmen/funktionen som definerar hur en viss sida "är" i ditt index, den måste vara tokigt mycket optimerad för att du skall kunna ha nån rimlig chans att ens indexera alla startsidor på alla nätets domäner. Tänk på att det inte räcker med att "indexera" allting, utan att du även måste kunna hålla ditt index uppdaterat. Mao så måste du designa din kod så att den klarar av att uppdatera allting på mindre än ett par dagar. (Självklart uppdaterar du inte _allting_ hela tiden, men du får vikta vilka sidor som uppdateras ofta osv).

Lycka till!

dee 2004-08-23 00:22

det är ju lite med tanken bakom att endast visa 50-100 sidor per sökord. jag ska se om det inte finns några nya förbättringar med php 5 eller om jag inte missat någon bra list funktion, annars har ja en polare som är ganska bra på funktionell programmering, språk som haskell är sjukt bra när det kommer till listor osv.

det allra enklaste vore att sätta allt under ett cronjob som själv uppdaterar all info. då vår man väl ladda ner runt 20GB (skulle ja gissa på) sidor varje vecka... :rolleyes: fast tanken e ju att inte läsa hela sidan utan bara de viktigaste, man får ju inte bränna för mycke bandwidth hehe.

grazzy 2004-08-23 00:40

Hur skall du avgöra vilka sidor som är viktiga då? Utan att ladda hem alla sidor dvs?

20 gb kommer du inte särskilt långt med :-)

En sida kanske är 5kb stor, då kan du ladda hem 4 miljoner sidor i veckan, google har fyra miljarder sidor i sitt index...

Testa 20,000 gb :)

Chatis 2004-08-23 00:41

hej Dee
skickar dej ett mail / pm i morgon när jag är lite piggare =) ;)

dee 2004-08-23 00:52

jo, de där problemet med att få scriptet att avgöra vilka sidor som har bäst kvalité kommer in. Hittar man en smart lösning så kanske man inte behöver ladda ner alla sidor.. de mest de ja e ute efter om ja nu lyckas kläcka något dom kommande månaderna hehe (kan tänka mig att man behöver en hel del >matatematik< här...). Sedan kan man komprimera sidorna innan man läser dom speciellt med php som har funktioner som tex struntar i att läsa html kod osv.

mattiasjarnhall 2004-08-23 07:54

Citat:

Originally posted by dee@Aug 23 2004, 00:52
jo, de där problemet med att få scriptet att avgöra vilka sidor som har bäst kvalité kommer in. Hittar man en smart lösning så kanske man inte behöver ladda ner alla sidor.. de mest de ja e ute efter om ja nu lyckas kläcka något dom kommande månaderna hehe (kan tänka mig att man behöver en hel del >matatematik< här...).
Det finns ju INGEN lösning på det problemet. Du måste, vare sig du vill det eller inte, ladda ner sidorna för att kunna utvärdera hurvida de har "bra" kvalité eller inte.
Jag kan tänka mig att du har tänkt att ditt "script" skall "besöka" sidor och utvärdera dem, ellerhur? Men vad tror det att "besöka" en sida innebär? Jo att den laddas ner.

/MJ

Robert 2004-08-23 08:20

Japp, ovanstående talare har rätt.

Kan du inte på ett initialt stadium avgöra vilka sidor du vill besöka, alltså en mix mellan typ ODP och en spindel? Alltså att du kanske först och främst satsar på en region, ex sverige (avgör via IP) där du utesluter x antal domäner från en lista, typ allt från passagen etc. eller ha en lista du sätter upp för siter du ska idexera, exempelvis att köra via ODP som faktiskt är någotsånär gallrat av människor. Då får du iaf fördelen över ODP att du har alla ODP sidor indexerade, och inte bara sökbara via en beskrivning som ODP har idag (nu kanske jag har tokfel men jag tror inte ODP indexerar upp de siter som inkluderas)

Sen att säga att ex PHP ska indexera sidor...varför? Det borde vara en kompilerad mjukvara på en server som både spindlar och indexerar, helt skillt ifrån allt vad websidorna eller "webspråken" heter.

nicclas 2004-08-23 09:24

Det går alldeles utmärkt att skriva och driva en "ok" sökmotor med PHP och MySQL och köra den på en hemdator (eller i värsta fall ett webbhotell). Det viktiga är inte hårdvara och snabb kod, utan bra idéer och smarta implementeringar.

Titta bara på http://www.fybersearch.com . Fybersearch är byggt av en "tonåring", är baserad på PHP och MySQL, har inte så många sidor indexerade, men anses ända ha potential. Fybersearch har nämnts i ett gäng tidningarartiklar, som t.ex.: http://moneycentral.msn.com/content/CNBCTV...orts/P91256.asp
Fler sajter som skriver om Fybersearch hittas här:
http://www.google.com/search?hl=en&lr=&ie=...com&btnG=Search

Kan du göra något liknande, och är beredd att satsa på projektet, så tror jag det finns en rimlig chans att något större sökföretag är villig att anställa dig eller upplåta resurser/pengar för fortsatt utveckling.

Robert 2004-08-23 09:40

Jovisst går det bra med MySQL men om man redan ifrån början vill satsa "större" och undvika framtida plattformsbyten så kanske man ska välja en databas som skalar bra och klarar många anrop simultant (ja, eller det vi menar med simultant iaf).

grazzy 2004-08-23 09:51

Näh, fybersearch e skit. Tyvärr.

Jag submittade min egen site dit för flera månader sedan och han får fortfarande inte upp en enda träffa på min pagerank 6 sida.

Den hittar inte heller mitt nick som har ett gäng träffar på nätet på både svenska och internationella sidor. Vidare så finner den exakt 1 träff på mitt rätt så unika namn (Hjalmar) - vilket borde vara lite konstigt med tanke på hur många som heter det i världen ( och om man bara räknar träffarna på google där _jag_ figurerar ).

nicclas 2004-08-23 10:04

"Näh, fybersearch e skit. Tyvärr."

Jo, det håller jag med om. Men det är en väldigt bra början, inte minst på grund av den uppmärksamhet den (och snubben bakom) fått i media. Det tror att han har stora möjligheter att kunna fortsätta driva sitt projekt med en hygglig lön.

Att jämföra med ett enmansprojekt med t.ex. Google (som har lika mycket kapital som svenska Ericsson!?) blir ju aldrig rättvist.

Robert 2004-08-23 10:14

Man ska väl bedöma sökmotorn efter det som finns under huven. jag har inte kollat på fybersearch men det verkar som problemet "bara" är lite data? Potentialen ligger väl i tekniken för utsökning, indexering etc (hur han nu har löst det som gör just hans tjänst såååå bra)

nicclas 2004-08-23 10:28

"Potentialen ligger väl i tekniken för utsökning, indexering etc"

Nja, i detta fall anser de flesta att potentialen ligger i sorteringen av sökresultaten. Att hämta in många webbsidor snabbt är mycket en fråga om hårdvara, och lite kända tricks, "vanlig" indexering är heller inte "rocket science", och det kan man alltid satsa på då man har fått något som är användbart att fungera. Får man dessutom många besökare (från bra reklam) så är det enkelt att bygga vidare.

Att starta med massvis med hårdvara, och inga idéer, är bara dyrt.

Robert 2004-08-23 10:45

Citat:

Originally posted by nicclas@Aug 23 2004, 10:28
"Potentialen ligger väl i tekniken för utsökning, indexering etc"

Nja, i detta fall anser de flesta att potentialen ligger i sorteringen av sökresultaten. Att hämta in många webbsidor snabbt är mycket en fråga om hårdvara, och lite kända tricks, "vanlig" indexering är heller inte "rocket science", och det kan man alltid satsa på då man har fått något som är användbart att fungera. Får man dessutom många besökare (från bra reklam) så är det enkelt att bygga vidare.

Att starta med massvis med hårdvara, och inga idéer, är bara dyrt.

Sortering av sökresultaten är vad jag menar med utsökning ur databasen (vad det än må vara som anses som bra i detta fall), och inte "datat" i databasen (vilket är en brist).

dee 2004-08-23 10:50

Jo, ja vet mycket väl att om man läser en sida så laddas den ner. Men man kan med vara lite finurlig och bestämma själv vad man ska läsa. Det går till och med att endast läsa vissa delar på en sida och ignorera andra. De fina e ju att metatabbarna alltid ligger långt upp på sidan också =)

Seda får vi försöka hålla oss inom cirkeln.. jag räknar inte me att bygga en en super motor som kommer att slå google, jag är mest intresserad utav att bygga en "successful" sökmotor. Det känns lite onödigt att behöva gå och lära mig typ Ada eller något annat programmeringsspråk som militären använder bara för att kunna söka snabbare. De teknikerna man väljer som oftast utgör hurvida motorn är snabb eller seg.

Jag kollade upp php och det visar sig att php5 med sin nya Zend motor kan prestera mycket bättre än version 4.

Lundmark 2004-08-23 11:48

En annan rolig sökmotr som en har gjrot är searchhippo.com.

Om du har funderingar på hur din "serverhall" ska se ut så kan du kolla på www.searchhippo.com/seedcpics.php

ric 2004-08-23 12:54

Citat:

Originally posted by dee@Aug 23 2004, 10:50
De fina e ju att metatabbarna alltid ligger långt upp på sidan också =)
Om det var det fina så är det fula att väldigt få använder dem överhuvudtaget eller på fel sätt. Kan vara svårt att bygga bra sökresultat på att automatiskt hämtade metataggar om de inte finns eller stämmer.

Robert 2004-08-23 13:01

Citat:

Originally posted by dee@Aug 23 2004, 10:50
Jo, ja vet mycket väl att om man läser en sida så laddas den ner. Men man kan med vara lite finurlig och bestämma själv vad man ska läsa. Det går till och med att endast läsa vissa delar på en sida och ignorera andra. De fina e ju att metatabbarna alltid ligger långt upp på sidan också =)

Seda får vi försöka hålla oss inom cirkeln.. jag räknar inte me att bygga en en super motor som kommer att slå google, jag är mest intresserad utav att bygga en "successful" sökmotor. Det känns lite onödigt att behöva gå och lära mig typ Ada eller något annat programmeringsspråk som militären använder bara för att kunna söka snabbare. De teknikerna man väljer som oftast utgör hurvida motorn är snabb eller seg.

Jag kollade upp php och det visar sig att php5 med sin nya Zend motor kan prestera mycket bättre än version 4.

Du måste ändå göra en http-request och hämta ner hela html-koden innan du kan börja parsa den, så det spelar ingen roll om du "bara" kikar på vissa data i http-responsen. Eller tänkte du avbryta "svaret" efter en viss html-tagg?

Prestandan kommer enbart bero på databasen vad gäller mjukvara, inte vilket skriptspråk du använder. Flaskhalsen blir antalet samtidiga användare och utsökningen ur databasen (vilken du förhoppninsvis redan har sparat ner där på ett sådant strukturerat sätt att du kan ställa icke-krävande sqlfrågor för att få ut svaren)

dee 2004-08-23 15:02

Citat:

Originally posted by Lundmark@Aug 23 2004, 11:48
En annan rolig sökmotr som en har gjrot är searchhippo.com.

Om du har funderingar på hur din "serverhall" ska se ut så kan du kolla på www.searchhippo.com/seedcpics.php

Oj, de där va ballt :D

Men om man ska fuska lite så kan man göra som metacrawler.com. Den tar dom bästa resultaten från dom största sökmotorerna och visar dom istället. Om de som ligger bakom metacrawler.com har byggt den bra så kan ja tänke mig att de inte ens behöver en databas :lol:

Lundmark 2004-08-23 15:33

Citat:

Men om man ska fuska lite så kan man göra som metacrawler.com. Den tar dom bästa resultaten från dom största sökmotorerna och visar dom istället. Om de som ligger bakom metacrawler.com har byggt den bra så kan ja tänke mig att de inte ens behöver en databas
Fuska och fuska....... min sökmotor (dipbox.com) är uppbyggd så. Jag tar mina resultat från fem olika sökmotorer, sedan rankar jag sidorna efter hur dom sökmotorerna har rankat dom olika sidorna. Jag har såleds ingen databas.

dee 2004-08-23 15:50

det sparar nog en en massa arbete. Men händer det inte att sökmotorerna ändrar sina sidor så man också måste ändra i sina filer?

Lundmark 2004-08-23 15:55

Citat:

det sparar nog en en massa arbete. Men händer det inte att sökmotorerna ändrar sina sidor så man också måste ändra i sina filer?
Jag har avtal med alla sökmotorer som jag har på min sida. Så jag får alla resultat i XML format. Så det är inte något problem.

dee 2004-08-23 16:34

kostar ett sådant avtal något?

Lundmark 2004-08-23 16:49

Nä, dom sökmotorer jag använder vill ha många sökningar. Men om man ska använda Google så kostar det.

Men det är ju inte lika roligt att göra en sådan sökmotor som en med en egen databas. Håll fast vid din ursprungliga idé.

dee 2004-08-23 17:35

jo de ska ja göra, fast de kul att veta hur de fungerar =)

nicclas 2004-08-23 18:08

En idé som jag tror skulle vara intressant att utveckla är "riktade" sökmotorer. Säg att du är intresserad av sport (eller kanske enbart av fotboll), så kan du skapa en sport-sökmotor. Till sökmotorn pekar du ut några nyhetssajter, några sportsajter och eventuellt någon form av uppslagsverk (typ susning.nu eller annan med mer om sport!?). Marknadsför sedan sökmotorn som en sökmotor enbart för sport och sportresultat, eller enbart fotboll. Jag tror att en sådan skulle kunna bli mycket användbar. Nu är sport (eller fotboll) bara ett exempel, man skulle nog kunna tänka sig bättre ämnen, men vilket ämne som passar beror ju lite på vad du är intresserad av. Det är antagligen roligast, och resultatet blir bäst, om man satsar på ett ämne som man själv är intresserad av.

dee 2004-08-23 18:14

Citat:

Originally posted by nicclas@Aug 23 2004, 18:08
En idé som jag tror skulle vara intressant att utveckla är "riktade" sökmotorer. Säg att du är intresserad av sport (eller kanske enbart av fotboll), så kan du skapa en sport-sökmotor. Till sökmotorn pekar du ut några nyhetssajter, några sportsajter och eventuellt någon form av uppslagsverk (typ susning.nu eller annan med mer om sport!?). Marknadsför sedan sökmotorn som en sökmotor enbart för sport och sportresultat, eller enbart fotboll. Jag tror att en sådan skulle kunna bli mycket användbar. Nu är sport (eller fotboll) bara ett exempel, man skulle nog kunna tänka sig bättre ämnen, men vilket ämne som passar beror ju lite på vad du är intresserad av. Det är antagligen roligast, och resultatet blir bäst, om man satsar på ett ämne som man själv är intresserad av.
jo precis, fast då kommer man åter in på att man förmodligen måste skapa något form av avtal med vissa sajter om man nu ska kunna söka på deras sport nyheter osv. Jag hade själv en liknande idé fast ett annat ämne =)

nicclas 2004-08-23 18:19

Citat:

o precis, fast då kommer man åter in på att man förmodligen måste skapa något form av avtal med vissa sajter om man nu ska kunna söka på deras sport nyheter osv.
Nä, du samlar in data på samma sätt som vilken annan sökmotor som helst. Antagligen går det att bygga en hyggligt användbar "sport"-sökmotor genom att hämta in c:a 10-30GB per månad, eller något. Skulle tro att det går bra att lagra och söka med hjälp av MySQL om du bara sparar data några månader, eller om du vill lagra längre, sparar undan i flera tabeller som inte genomsöks samtidigt.


Alla tider är GMT +2. Klockan är nu 18:37.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson