Pengertian Clustering, Metode Algoritma, dan Contohnya

Pengertian Clustering, Metode Algoritma, dan Contohnya

Mediawana.com - Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, tujuannya yaitu untuk mengelompokkan data dengan karakteristik yang sama ke suatu wilayah yang sama.

{getToc} $title={Daftar isi}

Clustering atau klasterisasi merupakan metode pengelompokan data. Clustering dapat diartikan sebagai sebuah proses untuk mengelompokan data ke dalam beberapa cluster sehingga data dalam satu cluster tersebut memiliki tingkat kemiripan yang maksimum dan data antar cluster memiliki kemiripan yang minimum.

Pengertian Clustering

Pengertian clustering adalah proses membagi atau mempartisi satu set objek data menjadi beberapa subset. Masing-masing subset memiliki satu cluster, sehingga objek-objek yang ada  di dalam suatu cluster tersebut mempunyai kemiripan satu dengan yang lainnya, namun tidak mirip dengan objek-objek di dalam cluster lainnya.

Cara Kerja Clustering

Clustering adalah algoritma yang bekerja dengan cara menerapkan algoritma yang ada di dalamnya, pada dasarnya K-Means Clustering merupakan algoritma yang sering kali digunakan dalam proses mengimplementasikan clustering.

Berikut ini merupakan cara kerja pada K-Means Clustering:

  • Menentukan nilai dari cluster K (Nilai dari cluster k bebas, dapat menggunakan angka berapapun).
  • Menempatkan data point ke setiap cluster yang ada.
  • Menentukan centroid dengan cara mengacak dataset yang ada dan juga secara acak dalam menentukan K data point untuk tempat centroid.
  • Melakukan perulangan secara kontinu atau terus menerus sehingga tidak ada lagi perubahan pada centroid.

Setelah itu jika sudah didapatkan hasil akhir dari k-means clustering, selanjutnya dilakukan evaluasi dengan dua metode yaitu Elbow Method dan Silhouette Method.

1. Elbow Method

Elbow Method
Pada gambar diatas merupakan ilustrasi Elbow Method yang memberikan gambaran tentang berapa jumlah k cluster yang baik dengan berdasarkan pada jumlah jarak kuadrat (SSE) antara data point dengan centroid cluster yang ditetapkan. 

Nama Elbow Method sendiri karena grafik yang dibuat membentuk sebuah siku manusia. Nantinya lekukan siku pada grafik tersebut menunjukkan berapa banyak cluster untuk menerapkan k-means clustering yang optimal.

2. Silhouette Method.

Silhouette Method

Silhouette Method juga merupakan metode yang digunakan untuk menemukan jumlah klaster yang optimal dan interpretasi serta validasi konsistensi dalam cluster data.

Cara kerja Silhouette Method adalah dengan cara menghitung koefisien siluet dari setiap titik yang mengukur seberapa mirip suatu titik dengan klasternya itu sendiri dibanding dengan klaster yang lainnya. dengan memberikan representasi grafis ringkas tentang seberapa baik setiap objek telah diklasifikasikan.

Algoritma

Apa sih Algoritma itu?. Algoritma yaitu deretan instruksi yang dapat memecahkan masalah, seperti untuk memperoleh keluaran yang diinginkan dari suatu masukkan dalam jumlah waktu yang terbatas dan tertentu.

Algoritma yang ditulis dalam bahasa komputer dinamakan dengan program. Orang yang membuat program komputer disebut dengan pemrogram atau pengembang, dan kegiatan merancang dan menulis program disebut adalah pemrograman, serta ada aktivitas menulis kode program dinamakan juga dengan coding.

Kesimpulan

Metode Elbow dan Silhouette biasa digunakan untuk keperluan mencari jumlah cluster yang optimal. Ambiguitas muncul untuk metode elbow untuk memilih nilai k. 

Analisis siluet dapat digunakan untuk mempelajari jarak pemisahan antara cluster yang dihasilkan dan dapat dianggap sebagai metode yang lebih baik dibandingkan dengan metode Elbow.Analisis siluet juga memiliki keuntungan tambahan untuk menemukan outlier jika ada dalam sebuah cluster.

Lebih baru Lebih lama

نموذج الاتصال