Bagaimana Caranya Membandingkan Dua Buah Dokument Dengan Algoritma Winnowing

No Comments
Perkembangan pengetahuan dan tekhnologi informasi komputer telah banyak di temukan alogritma dalam menyelesaikan permasalahan yang rumit dan tidak tersruktur. Algortima adalah cara berpikir dari sesorang yang ahli yang bisa di tuangkan dalam bentuk algoritma yang dapat di wariskan dan di pahami oleh orang lain bahkwan bisa dikembangkan.



Algoritma dapat membantu manusia khususnya dalam mendeteksi plagiat atau copy paste yang sering terjadi dengan mengambil hasil karya orang lain. 

Ada dua algoritma yang sangat terkenal di pakai oleh programmer dalam membandingkan kemiripian dari dua atau lebih dokumen, yaitu algortima Rabin Karp dan algoritma winowing.

Perbedaan kedua algoritma sangat tergantung kepada hasil akhir dan akurasi dalam melakukan proses.

Proses Kerja Alur Algoritma Winnowing dan Rabin Karb dengan menggunakan kode ASCI.
  1. Preprocessing
  2. Tokenisisasi
  3. Pembentukan Window
  4. Menghitung Nilai Hash.
  5. Pemilihan Fingerprint
  6. Menghitung dan menampilkan nilai Similarity
 
Proses Alur Kerja Winnowing Dengan Pendekatan Biword dengan menggunakan enkripsi MD5 dengan proses :
  1. Preprocessing
  2. Tokenisisasi dengan membentuk biword 2 (kata)
  3. Mengubah biword dengan melakukan enkripsi MD5
  4. Menghitung Nilai Hash.
  5. Membentuk Window dengan nilai bobot
  6. Memilih nilai hash minimum (fingerprint)
  7. Menghitung presentase dengan menggunakan Jaccard Coefficient
  8. Menampilkan nilai Similartity.


Contoh kasus :

Untuk lebih jelasnya dapat di lihat contoh seperti di penjelasan di bawah ini dan untuk memudahkan dalam perhitungan dengan menggunakan dimana judul yang akan di uji terhadap satu judul yang lain.

Judul yang di input :
Sistem pendukung keputusan seleksi beasiswa stmik amik satu metode saw

Judul yang ada dalam tabel
Sistem pendukung keputusan seleksi bantuan sosial metode topsis
Langkah-langkah penyelesaian adalah sebagai berikut :
1.         Tentukan bilangan prima = 2
2.         Tentukan ukuran window yang akan di bentuk = 2
3.         Preprocessing
a.       Menghilangkan spasi
Dokumen 1:
               [0] => sistem
                [1] => pendukung
                [2] => keputusan
                [3] => seleksi
                [4] => beasiswa
                [5] => stmik
                [6] => amik
                [7] => satu
                 [8] => metode
                [9] => saw
 


Dokumen 2:
                [0] => sistem
                 [1] => pendukung
                 [2] => keputusan
                 [3] => seleksi
                 [4] => bantuan
                 [5] => sosial
                 [6] => metode
                 [7] => topsis
 

b.      Token Biword
Dokumen 1:
               [0] => sistem pendukung
                [1] => pendukung keputusan
                [2] => keputusan seleksi
                [3] => seleksi beasiswa
                [4] => beasiswa stmik
                [5] => stmik amik
                [6] => amik satu
                [7] => satu metode
                [8] => metode saw
 
Dokumen 2:
               [0] => sistem pendukung
                [1] => pendukung keputusan
                [2] => keputusan seleksi
                [3] => seleksi bantuan
                [4] => bantuan sosial
                [5] => sosial metode
                [6] => metode topsis
 

4.         Mengkonvesi Token Biword Ke MD5

Convert To MD5 Dokumen 1:
               [0] => a02a69f9e4e8b17d658750decde70361
                [1] => db4ae8b5046a0addc1376719f8eb7567
                [2] => 98e71693f1cc085f68b9f02c41767d4c
                [3] => 7a199ebdce9673e78359d393d08a3bdc
                [4] => 8fc985c110db5733dfcd9d81459b9d8c
                [5] => 07dcd693b695006e33c1b9a9d152f666
                [6] => 5f5564fd9d38a9e598d7978b36c174ef
                [7] => c8d7c488696b6415978d35e0b6bf5f68
                [8] => 494f96bf630bbc120e1575577e4697ed
 

Convert To MD5 Dokumen 2:
               [0] => a02a69f9e4e8b17d658750decde70361
                [1] => db4ae8b5046a0addc1376719f8eb7567
                [2] => 98e71693f1cc085f68b9f02c41767d4c
                [3] => dcc329c79a76245759b44b70cf11c2a2
                [4] => 0f146a4170ae53cf5168d89b436eb831
                [5] => dbb6aa0695a6f1024145dd398e71ac78
                [6] => adfda8d496ea4ce1656f9ce83d1cb3b6
 

5.         Menghitung Nilai Hash : Rolling Hash
Nilai Hash Dokumen 1:
               [0] => 329596576377
                [1] => 396333092335
                [2] => 265922919315
                [3] => 284759478363
                [4] => 314432246187
                [5] => 263490104234
                [6] => 283007066152
                [7] => 361741040388
                [8] => 245405458290
 
Nilai Hash Dokumen 2:
               [0] => 329596576377
                [1] => 396333092335
                [2] => 265922919315
                [3] => 403781279492
                [4] => 270226820183
                [5] => 410169090922
                [6] => 419381180838
 
6.         Membentuk Nilai Window (w)

Pembentukan Window Untuk Dokumen 1:

         Window[0]
        [0] => 329596576377
                [1] => 396333092335
       

                Window[1]

                [0] => 396333092335
                [1] => 265922919315


                Window[2]
       
                [0] => 265922919315
                [1] => 284759478363
       

         Window[3]
       
                [0] => 284759478363
                [1] => 314432246187
         

         Window[4]
       
                [0] => 314432246187
                [1] => 263490104234
       

         Window[5]
       
        [0] => 263490104234
                [1] => 283007066152
         

                Window[6]
         
                [0] => 283007066152
                [1] => 361741040388
         

         Window[7]

                [0] => 361741040388
                [1] => 245405458290
         

Jumlah Window Dokumen 1 = 8

Pembentukan Window Untuk Dokumen 2:
         Window[0]
               [0] => 329596576377
                [1] => 396333092335
       

                Window[1]

               [0] => 396333092335
                [1] => 265922919315


                Window[2]
       
               [0] => 265922919315
                [1] => 403781279492
       

         Window[3]
       
               [0] => 403781279492
                [1] => 270226820183

         

         Window[4]
       
               [0] => 270226820183
                [1] => 410169090922

       

         Window[5]       
               
               [0] => 410169090922
                [1] => 419381180838
         

          
Jumlah Window Dokumen 2 = 6

7.         Mencari Nilai Hash Terkecil Untuk Dijadikan Fingerprint
Finger Dokumen 1:


            [0] => 329596576377
            [1] => 265922919315
            [0] => 265922919315
            [0] => 284759478363
            [1] => 263490104234
            [0] => 263490104234
            [0] => 283007066152
            [1] => 245405458290


Finger Dokumen 2:   
            [0] => 329596576377
            [1] => 265922919315
            [0] => 265922919315
            [1] => 270226820183
            [0] => 270226820183
            [0] => 410169090922
         
 

8.         Mencari Nilai Similarity Dengan Persamaan Jaccard Coefficent
Irisan Dokumen 1 dan 2
               [0] => 329596576377
                [1] => 265922919315
 
Gabungan Dokumen 1 dan 2
               [0] => 329596576377
                [1] => 265922919315
                [2] => 284759478363
                [3] => 263490104234
                [4] => 283007066152
                [5] => 245405458290
                [8] => 270226820183
                [9] => 410169090922
 

Jumlah Gabungan  D1/D2 =8

9.         Hasil Similarity
Hasil Similarity D1/D2 =  (2 / 8) * 100% = 25%
Hasil Dissimilarity D1/D2 = (1 - 0.25) * 100% = 75%

10.     Fingerprint Yang Sama
Dokumen 1    :
sistem pendukung keputusan seleksi beasiswa stmik amik satu metode saw
Dokumen 2 :
sistem pendukung keputusan seleksi bantuan sosial metode topsis


11.     Maka kesimpulanya kemiripan dua bua dokumen tersebut adalah 75%.

back to top