WN

WN (https://www.wn.se/forum/index.php)
-   Allmänt (https://www.wn.se/forum/forumdisplay.php?f=2)
-   -   Bygga sökmotor... (https://www.wn.se/forum/showthread.php?t=2273)

pontus 2004-05-10 23:00

Jag hade tänkt att bygga en webbsöktjänst. Tidigare har jag använt
Citat:

FROM db WHERE sokord LIKE '%$q%'
men nu tänkte jag använda mig av relevans-sortering. Och då kommer vi givetvis till frågan, hur sorterar man bäst dokument efter relevans och kvalite?

Såhär hade jag tänkt mig:

1. interna egenskaper
Jag hade tänkt mig att ge en sida:
6 p om sökordet finns i titeln.
0.5 p om sökordet finns i meta-beskrivningen
0.5 p om sökordet finns i meta-keywords
0 - 4 p beroende på hur många gånger sökordet finns i texten på sidan.
3 p om sökordet är detsamma som domänen.
1 p om sökordet finns delvis i domänen.

2. externa egenskaper
0.1 p för varje inlänk till sidan. (med max på 10 p)
0.1 p för varje inlänk med sökordet i länktexten (med max på 10 p)

Då sorteras resultatet i en sökning efter högst "p".

Nu vill jag givetvis ha förslag på förbättringar! Vad saknas? Vad behövs inte? Vad ska ändras?

Per 2004-05-10 23:03

Har du kikat på MySQL FULLTEXT-search?

En URL också: dev.mysql.com/doc/mysql/en/Fulltext_Search.html

pontus 2004-05-10 23:12

Citat:

Originally posted by Per@May 10 2004, 20:03
Har du kikat på MySQL FULLTEXT-search?

En URL också: dev.mysql.com/doc/mysql/en/Fulltext_Search.html

Kollade lite snabbt på dev.mysql.com och antagligen har du missförstått frågan. Frågan rörde mer hur man utformar en algoritm som sorterar sidor efter dess relevans än hur man plockar ut saker och ting från databasen. (FULLTEXT-search verkar sortera mest efter antalet gånger ett ord förekommer, det är ingen bra algoritm.) :)

Per 2004-05-10 23:16

Citat:

Ursprungligen postat av pontus
Citat:

Ursprungligen postat av Per
Har du kikat på MySQL FULLTEXT-search?

En URL också: dev.mysql.com/doc/mysql/en/Fulltext_Search.html

Kollade lite snabbt på dev.mysql.com och antagligen har du missförstått frågan. Frågan rörde mer hur man utformar en algoritm som sorterar sidor efter dess relevans än hur man plockar ut saker och ting från databasen. :)

Nja, jag missuppfattade inte frågan. Jag tänkte bara höra om du tittade på fulltextsökning då den ofta är smartare att använda än LIKE '%foo%' och dessutom ger just en siffra för relevans. ;)

Lundmark 2004-05-10 23:47

Jag har läst en bok i ämnet som är riktigt bra.

"Informationssökning på Internet"
ISBN: 9144031785

kullervo 2004-05-10 23:58

Jag gissar på att det finns många gratisprojekt igång med öppen källkod för den typen av sökmotorer. Om du inte hittar någon du kan använda dig av rakt av så finner du nog många bra idéer om du kikar i koden eller dess dev-forum.

Lundmark 2004-05-11 00:08

Om sökordet är i fet stil, om det är inom <h1> o.s.v. så borde det ge mer poäng.

Men det borde oxå ge mer poäng beroende på hur högt upp ordet står på sidan.

Samt om man har två sökord. Hur nära dom står varandra i texten.

Tobias Turesson 2004-05-11 00:25

Om ordet finns i domänen borde ge mer poäng.

Lundmark 2004-05-11 00:39

Citat:

0.1 p för varje inlänk till sidan. (med max på 10 p)
0.1 p för varje inlänk med sökordet i länktexten (med max på 10 p)

Problemet är om sidorna som länkar in är "skit-sidor" som typ gästböcker o.s.v. där sidägaren själv har matat in sin sida.

Samt om sökordet är med i länktexten borde det ge lite mer, (om det inte är på en "skit-sida" vill säga.


Alla tider är GMT +2. Klockan är nu 18:06.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson