WN - Visa ett inlägg

Conny Westh · 2013-05-10, 19:32

Jag tycker man kan ta texterna och tokenisera de enskilda orden. sen räknar man hur många ord som är lika och hur många ord det finns totalt.

Sen delar man antalet lika ord med totala antalet ord och får då en procentsiffra som kan ge en hyfsad uppfattning hur lika texterna är.

Sen är det bara att sortera på de med störst likhet och gå in och kika manuellt hur väl det stämmer.

Man kan även göra en ordanalys så man räknar antalet lika tecken i ett enskilt ord för att se om det finns många ord som är snarlika (skiljer 1-2 tecken så kan det vara en felstavning).