Klarade millennium-buggen
|
|
Reg.datum: Aug 2005
Inlägg: 5 166
|
|
Klarade millennium-buggen
Reg.datum: Aug 2005
Inlägg: 5 166
|
Jag tycker man kan ta texterna och tokenisera de enskilda orden. sen räknar man hur många ord som är lika och hur många ord det finns totalt.
Sen delar man antalet lika ord med totala antalet ord och får då en procentsiffra som kan ge en hyfsad uppfattning hur lika texterna är.
Sen är det bara att sortera på de med störst likhet och gå in och kika manuellt hur väl det stämmer.
Man kan även göra en ordanalys så man räknar antalet lika tecken i ett enskilt ord för att se om det finns många ord som är snarlika (skiljer 1-2 tecken så kan det vara en felstavning).
Senast redigerad av Conny Westh den 2013-05-10 klockan 18:35
|