FAQ |
Kalender |
|
![]() |
#1 | |||
|
||||
Administratör
|
Hur många ord är varje text på? Levenshtein och smiliar_text drar ruskigt mycket resurser och det kommer ta otroligt lång tid om det är mer än 20 ord per text. Däremot borde MySQL klara av det med fulltext-index.
Utan att ha testat och bara genom att spekulera tror jag att du hade kunnat få det gjort rätt snabbt genom att loopa igenom dina texter, fråga databasen efter texten, och där id != iterationsID. Får du ett svar som har någon relevans över säg, 50% (justera efter behov), så kan du vara ganska säker på att den är snarlik eller en dublett. Markera upp den tillsammans med iterationsID och kör en manuell koll efteråt. Detta är nog den mest eleganta och snabbaste lösningen. Funkar inte den så finns det en del vettiga implementationer av Levenshtein för MySQL ute på nätet som är snabbare än PHP's implementation tillsammans med fulltext-index. http://dev.mysql.com/doc/refman/5.1/...-language.html
__________________
@Zn4rK - Börja blogga - Paintball i Göteborg Det jag skriver är mina personliga åsikter och återspeglar inte vad WN eller andra företag jag representerar tycker. |
|||
![]() |
![]() |
Svara |
|
|