ATT HITTA IDENTISKA FILER En period letade jag efter ett bra program som skulle jämföra alla filer som fanns på hela datorns hårddisk med varandra, och försöka hitta dubletter. Efter ett tag så märkte jag att de flesta program man kunde ladda hem fritt, inte fungerade fullt ut (t.ex hade spärrar så att max 1500 filer jämfördes med varandra...). Jag började fundera, och kom fram till att det inte börde vara så svårt att programmera ett sådant program själv. Här kommer de stora punkterna som man bör tänka på vid filjämförelse. ===[För att hitta dubletter]=== 1. Läs in alla filers information i en matris (lista). 2. Sortera matrisen (listan) efter filernas storlek. 3. Börja jämföra alla filer med samma storlek med varandra, sluta vid första skilnaden. ==> Urskiljer olika filer. ===[För att hitta partiella dubletter]=== 1. Gör CRC-check på t.ex första kb (eler längd på minsta fil) för alla filer, lagra CRC-summan + filnamn + fillängd i en matris (dvs i en lista). 2. Sortera listan på CRC-numret 3. Plocka bort alla filer med unika CRC-nummer ur listan 4. kör (1) för några byte till (smidigt med CRC - man behöver inte läsa om all tidigare information). fortsätt med 2-3-4. 5. Repetera punkt 4 ovan tills man har jämfört t.ex första megabyten för alla filer som har haft samma CRC hela tiden och därför inte blivit bortgallrade. 6. Slutligen jämför man alla filer med samma CRC som är kvar i matrisen (listan) byte-för-byte med varandra, och plockar bort dem ur listan så fort man upptäcker skillnader.