Perkembangan
pengetahuan dan tekhnologi informasi komputer telah banyak di temukan alogritma
dalam menyelesaikan permasalahan yang rumit dan tidak tersruktur. Algortima
adalah cara berpikir dari sesorang yang ahli yang bisa di tuangkan dalam bentuk
algoritma yang dapat di wariskan dan di pahami oleh orang lain bahkwan bisa
dikembangkan.
Algoritma dapat membantu manusia khususnya dalam mendeteksi plagiat atau copy paste yang sering terjadi dengan mengambil hasil karya orang lain.
Algoritma dapat membantu manusia khususnya dalam mendeteksi plagiat atau copy paste yang sering terjadi dengan mengambil hasil karya orang lain.
Ada dua
algoritma yang sangat terkenal di pakai oleh programmer dalam membandingkan
kemiripian dari dua atau lebih dokumen, yaitu algortima Rabin Karp dan
algoritma winowing.
Perbedaan kedua
algoritma sangat tergantung kepada hasil akhir dan akurasi dalam melakukan
proses.
Proses Kerja
Alur Algoritma Winnowing dan Rabin Karb dengan menggunakan kode ASCI.
- Preprocessing
- Tokenisisasi
- Pembentukan Window
- Menghitung Nilai Hash.
- Pemilihan Fingerprint
- Menghitung dan menampilkan nilai Similarity
Proses Alur
Kerja Winnowing Dengan Pendekatan Biword dengan menggunakan enkripsi MD5 dengan
proses :
- Preprocessing
- Tokenisisasi dengan membentuk biword 2 (kata)
- Mengubah biword dengan melakukan enkripsi MD5
- Menghitung Nilai Hash.
- Membentuk Window dengan nilai bobot
- Memilih nilai hash minimum (fingerprint)
- Menghitung presentase dengan menggunakan Jaccard Coefficient
- Menampilkan nilai Similartity.
Contoh kasus :
Untuk lebih
jelasnya dapat di lihat contoh seperti di penjelasan di bawah ini dan untuk
memudahkan dalam perhitungan dengan menggunakan dimana judul yang akan di uji
terhadap satu judul yang lain.
Judul yang di
input :
Sistem pendukung keputusan seleksi
beasiswa stmik amik satu metode saw
Judul yang ada
dalam tabel
Sistem pendukung keputusan seleksi
bantuan sosial metode topsis
Langkah-langkah
penyelesaian adalah sebagai berikut :
1.
Tentukan bilangan prima = 2
2.
Tentukan ukuran window yang akan di bentuk = 2
3.
Preprocessing
a. Menghilangkan spasi
Dokumen 1:
[0] => sistem
[1] => pendukung
[2] => keputusan
[3] => seleksi
[4] => beasiswa
[5] => stmik
[6] => amik
[7] => satu
[8]
=> metode
[9] => saw
Dokumen 2:
[0] => sistem
[1] => pendukung
[2] => keputusan
[3] => seleksi
[4] => bantuan
[5] => sosial
[6] => metode
[7] => topsis
b. Token Biword
Dokumen 1:
[0] => sistem pendukung
[1] => pendukung keputusan
[2] => keputusan seleksi
[3] => seleksi beasiswa
[4] => beasiswa stmik
[5] => stmik amik
[6] => amik satu
[7] => satu metode
[8] => metode saw
Dokumen 2:
[0] => sistem pendukung
[1] => pendukung keputusan
[2] => keputusan seleksi
[3] => seleksi bantuan
[4] => bantuan sosial
[5] => sosial metode
[6] => metode topsis
4.
Mengkonvesi
Token Biword Ke MD5
Convert
To MD5 Dokumen 1:
[0] => a02a69f9e4e8b17d658750decde70361
[1] =>
db4ae8b5046a0addc1376719f8eb7567
[2] =>
98e71693f1cc085f68b9f02c41767d4c
[3] =>
7a199ebdce9673e78359d393d08a3bdc
[4] =>
8fc985c110db5733dfcd9d81459b9d8c
[5] =>
07dcd693b695006e33c1b9a9d152f666
[6] =>
5f5564fd9d38a9e598d7978b36c174ef
[7] =>
c8d7c488696b6415978d35e0b6bf5f68
[8] =>
494f96bf630bbc120e1575577e4697ed
Convert
To MD5 Dokumen 2:
[0] => a02a69f9e4e8b17d658750decde70361
[1] =>
db4ae8b5046a0addc1376719f8eb7567
[2] =>
98e71693f1cc085f68b9f02c41767d4c
[3] =>
dcc329c79a76245759b44b70cf11c2a2
[4] =>
0f146a4170ae53cf5168d89b436eb831
[5] =>
dbb6aa0695a6f1024145dd398e71ac78
[6] =>
adfda8d496ea4ce1656f9ce83d1cb3b6
5.
Menghitung Nilai Hash : Rolling Hash
Nilai
Hash Dokumen 1:
[0] => 329596576377
[1] => 396333092335
[2] => 265922919315
[3] => 284759478363
[4] => 314432246187
[5] => 263490104234
[6] => 283007066152
[7] => 361741040388
[8] => 245405458290
Nilai Hash
Dokumen 2:
[0] => 329596576377
[1] => 396333092335
[2] => 265922919315
[3] => 403781279492
[4] => 270226820183
[5] => 410169090922
[6] => 419381180838
6.
Membentuk
Nilai Window (w)
Pembentukan
Window Untuk Dokumen 1:
Window[0]
[0] => 329596576377
[1] => 396333092335
Window[1]
[0] => 396333092335
[1] => 265922919315
Window[2]
[0] => 265922919315
[1] => 284759478363
Window[3]
[0] => 284759478363
[1] => 314432246187
Window[4]
[0] => 314432246187
[1] => 263490104234
Window[5]
[0] => 263490104234
[1] => 283007066152
Window[6]
[0] => 283007066152
[1] => 361741040388
Window[7]
[0] => 361741040388
[1] => 245405458290
Jumlah
Window Dokumen 1 = 8
Pembentukan
Window Untuk Dokumen 2:
Window[0]
[0] => 329596576377
[1] => 396333092335
Window[1]
[0] => 396333092335
[1] => 265922919315
Window[2]
[0] => 265922919315
[1] => 403781279492
Window[3]
[0] => 403781279492
[1] => 270226820183
Window[4]
[0] => 270226820183
[1] => 410169090922
Window[5]
[0] => 410169090922
[1] => 419381180838
Jumlah
Window Dokumen 2 = 6
7.
Mencari Nilai
Hash Terkecil Untuk Dijadikan Fingerprint
Finger Dokumen 1:
[0] => 329596576377
[1] => 265922919315
[0] => 265922919315
[0] => 284759478363
[1] => 263490104234
[0] => 263490104234
[0] => 283007066152
[1] => 245405458290
Finger Dokumen
2:
[0]
=> 329596576377
[1]
=> 265922919315
[0] => 265922919315
[1] => 270226820183
[0]
=> 270226820183
[0]
=> 410169090922
8.
Mencari Nilai
Similarity Dengan Persamaan Jaccard Coefficent
Irisan Dokumen 1 dan 2
[0] => 329596576377
[1] => 265922919315
Gabungan
Dokumen 1 dan 2
[0] => 329596576377
[1] => 265922919315
[2] => 284759478363
[3] => 263490104234
[4] => 283007066152
[5] => 245405458290
[8] => 270226820183
[9] => 410169090922
Jumlah Gabungan D1/D2 =8
9.
Hasil
Similarity
Hasil Similarity
D1/D2 = (2 / 8) * 100% = 25%
Hasil
Dissimilarity D1/D2 = (1 - 0.25) * 100% = 75%
10. Fingerprint Yang Sama
Dokumen 1 :
sistem pendukung keputusan seleksi beasiswa stmik amik satu metode saw
Dokumen 2 :
sistem pendukung keputusan seleksi bantuan sosial metode topsis
11.
Maka
kesimpulanya kemiripan dua bua dokumen tersebut adalah 75%.

