Minggu, 12 Mei 2013

Klasifikasi : Decision Tree part 2

Kemarin kita sudah bahas tentang pengenalan metode klasifikasi dengan decision tree, dengan contoh data yang telah diberikan. Sekarang kita akan sedikit membahas tetang cara perhitungannya.
Hal pertama yang harus dilakukan adalah menghitung entrophy untuk keseluruhan data (buys computer = "yes" dan buys computer="no"). 

Berdasarkan rumus perhitungan entrophy yang kita bahas kemarin, diperoleh hasil berikut :
     Info (D) = I(9,5) = -(9/14) log(9/14) – (5/14) log(5/14) = 0.940
ket : 9 untuk yang memebeli komputer, 5 untuk yang tidak membeli komputer, 14 jumlah keseluruhan

Kemudian hitung juga entrophy, info, dan gain untuk setiap atribut.


Untuk atribut age kita dapat data di atas dengan perhitungannya :
-    Entrophy
     I(2,3) = -(2/5) log(2/5) – (3/5) log(3/5) = 0.971
     I(4,0) = -(4/0) log(4/0) – (0/4) log(0/4) = 0
     I(3,2) = -(3/2) log(3/2) – (2/3) log(2/3) = 0.971
-    Info age (D)
     = (5/14) I(2,3) + (4/14) I(4,0) + (5/14) I(3,2)
     = 0.694
-   Gain (age)
     = Info (D) - Info age (D)
     = 0.940 - 0.694
     = 0.246
     
Lakukan perhitungan tersebut untuk atribut lainnya dan kemudian bandingkan nilai gain-nya. Nilai gain yang paling besar menjadi acuan awal. Dan berdasarkan grafik tree kemarin, atribut age-lah yang menjadi acuan dan memiliki nilai gain terbesar. Jika digambarkan tree pada tahap ini adalah sebagai berikut :


Langkah berikutnya adalah menentukan atribut berikutnya untuk setiap percabangan yang ada (untuk percabangan age 31..40 tidak perlu diikut sertakan dalam perhitungan karena nilai entrophy-nya adalah 0).
Hitung kembali entrophy, info, dan gain untuk setiap atribut kecuali age. Untuk menghitung gain, Info (D) yang digunakan / diacu adalah Info (D) dari percabangan bukan Info (D) awal (misal, cabang "<=30" = 0.971).
Setelah seluruh perhitungan selesai, didapatlah grafik tree yang lengkap.

Oke, demikian contoh metode klasifikasi dengan decision tree. Semoga bermanfaat.. :D

Minggu, 05 Mei 2013

Klasifikasi : Decision Tree

Decision tree adalah salah satu metode untuk pengklasifikasian data. Dalam metode ini model dipresentasikan dalam bentuk tree. Metode ini diciptakan oleh Ross Quinlan. 
Contoh penggunaan decision tree pada data training berkiut :


Dari data tersebut, kita akan menganalisis seberapa besar kemungkinan orang yang akan membeli komputer berdasarkan atribut-atribut yang ada.
Dari data di atas diperoleh hasil/urutan sebagai berikut :


Bagaimana cara untuk mendapatkan hasil tersebut atau pemilihan urutan atribut??
Hal yang harus dilakukan adalah menghitung entrophy dan information gain.

  • Entrophy : ukuran kemurnian, semakin murni, semakin homogen, semakin rendah nilainya.
  • Information Gain : pengurangan entropy disebabkan oleh partisi berdasarkan suatu atribut. Semakin besar info gain atribut itu semakin membuat homogen, semakin bagus.
Pilih atribut dengan information gain yang paling besar.
Rumus untuk menghitung entrophy 2 kelas:
Rumus untuk menghitung entrophy > 2 kelas :
*Info (D) = Entrophy (D)  (istilah dibuku J. HAN).

Rumus untuk menghitung information gain :
Nah, itulah langkah dan perhitungan untuk menentukan urutan atribut. Untuk contoh perhitungannya akan dibahas dikesempatan berikutnya.. :D