SUPERVISED LEARNING VS UNSUPERVISED LEARNING

Hai ini blog ku nikmatilah karyaku

Next, sebelum kita kenal jauh dan bahas mengenai algoritma supervised dan unsupervised yang akan menjadi icon dalam kelas dan blog machine learning kali ini, yuk baca

Algoritma Supervised Learning

Sesuai namanya, algoritma supervised learning merupakan algoritma machine learning yang proses pembelajarannya di bawah pengawasan guru atau supervisor. Algoritma ini memerlukan data berlabel untuk membangun sebuah model yang tingkat akurasinya bisa ditingkatkan dari waktu ke waktu. Semakin banyak model tersebut mengolah data, maka tingkat keakurasiannya juga akan semakin tinggi. Dalam algoritma supervised learning, terdapat dua variabel, yaitu variabel input yang biasa disebut variabel X dan variabel output yang biasa disebut variabel Y. Tujuan algoritma supervised learning adalah untuk mempelajari fungsi pemetaan dari variabel X ke variabel Y. Rumus umum pemetaan variabel X dan Y adalah Y = f(X). Tujuan akhir dari algoritma supervised learning adalah untuk memperkirakan fungsi pemetaan (f) agar kita dapat memprediksi variabel Y ketika kita memiliki data input (variabel X) yang baru.

Algoritma Unsupervised Learning

Konsep dasar dalam algoritma supervised learning adalah proses pembelajaran yang diawasi oleh guru, sedangkan dalam algoritma unsupervised learning, proses pembelajaran lebih bebas karena tidak ada pengawasan. Algoritma unsupervised learning lebih bebas dalam proses eksplorasi data karena tidak memiliki data label dan bisa mencari karakteristik data yang tersembunyi. Algoritma ini menggunakan titik data sebagai referensi untuk menemukan struktur dan pola yang ada di dalam data set.

Contoh Algoritma Supervised dan Unsupervised Learning

Contoh paling populer dari algoritma unsupervised learning adalah clustering. Clustering adalah pengelompokan objek atau titik data yang mirip satu sama lain dan berbeda dengan objek di cluster lain. Machine learning engineer dan data science menggunakan algoritma yang berbeda dalam proses clustering. Algoritma clustering memiliki beberapa kategori, yaitu Hierarchical Clustering, K-means Clustering, K-NN (k nearest neighbors), Principal Component Analysis, Singular Value Decomposition, dan Independent Component Analysis. Selain itu, ada juga algoritma fuzzy clustering seperti algoritma FUzzy C Means dan Gustafson-Kessel Clustering. Hierarchical Clustering adalah algoritma yang membangun hierarki cluster. Pertama, data dikelompokkan berdasarkan persamaan, setelah cluster-cluster terbentuk, maka dua cluster yang memiliki kemiripan akan digabungkan menjadi satu cluster dan seterusnya hingga akhirnya hanya tersisa satu cluster. Pada K-means Clustering, K adalah algoritma pengelompokan iteratif yang akan menemukan nilai tertinggi untuk setiap iterasi. Awalnya, kita harus menentukan jumlah cluster yang diinginkan. Dalam metode pengelompokan ini, kita perlu mengelompokkan titik data ke dalam kelompok K. K-means Clustering dibagi lagi menjadi dua yaitu clustering agglomerative dan dendogram.

Jika pengelompokan dalam unsupervised learning disebut clustering, maka pengelompokan di supervised learning disebut classification atau klasifikasi. Klasifikasi adalah proses mengkategorikan sekumpulan data ke dalam kelas-kelas yang dapat dilakukan pada data terstruktur atau tidak terstruktur. Proses klasifikasi dimulai dengan memprediksi kelas titik data. Kelas-kelas tersebut sering disebut sebagai target, label atau kategori. Dalam machine learning, klasifikasi memiliki dua tipe learner, yaitu lazy learner dan eager learner. Lazy learner menyimpan data training dan menunggu sampai data testing muncul. Contoh lazy learner adalah K-NN. Tipe learner yang kedua adalah eager learner. Eager learner membuat model klasifikasi berdasarkan data training untuk menghasilkan model yang akan digunakan oleh data testing untuk proses prediksi. Contoh eager learner adalah decision tree, Naive Bayes, dan Jaringan Saraf Tiruan.

Contoh Pengaplikasian Algoritma Supervised dan Unsupervised Learning

Supervised learning dapat dimanfaatkan untuk memprediksi harga rumah, mengklasifikasikan suatu benda, memprediksi cuaca, dan kepuasan pelanggan. Dalam memprediksi harga rumah, data yang harus kita miliki adalah ukuran luas, jumlah kamar, fitur, fasilitas, dan lain sebagainya. Kemudian, kita harus memiliki data harga-harga rumah. Data-data ini merupakan data-data berlabel. Dengan memanfaatkan data dari ribuan rumah, kita dapat melatih model supervised learning untuk memprediksi harga rumah berdasarkan data-data yang sudah diketahui sebelumnya. Salah satu contoh pengaplikasian supervised learning yang paling menarik adalah memprediksi kondisi cuaca di lokasi tertentu. Untuk membuat prediksi cuaca yang benar, kita perlu memperhitungkan berbagai parameter, termasuk data suhu dari waktu ke waktu, curah hujan, angin, kelembaban, dan lain sebagainya. Metode yang tepat untuk memprediksi suhu adalah metode regresi dengan label output berupa data kontinu, sedangkan metode untuk memprediksi turunnya salju adalah metode klasifikasi binar. Metode supervised learning yang paling populer adalah klasifikasi. Metode ini digunakan e-commerce untuk memprediksi sentimen teks dari tweets atau ulasan produk mereka. Jika tweets atau ulasan produk masuk ke dalam kelas positif, maka dapat diartikan bahwa pelanggan puas dengan produk tersebut.

Contoh pengaplikasian algoritma unsupervised learning adalah segmentasi pelanggan, mengurangi kompleksitas suatu masalah, dan memilih fitur yang tepat. Segmentasi pelanggan membutuhkan metode clustering. Metode ini termasuk algoritma unsupervised learning yang bertujuan untuk menemukan kelompok atau cluster alami di dalam data input. Salah satu pendekatan umum dalam clustering adalah membagi titik data sedemikian rupa sehingga setiap titik data yang memiliki kemiripan masuk ke dalam grup yang sama. Metode clustering biasanya digunakan untuk menentukan segmen pelanggan dalam data pemasaran. Jika tim pemasaran memiliki data segmentasi pelanggan, maka tim pemasaran dapat melakukan pendekatan yang tepat ke setiap segmen pelanggan. Pengurangan dimensi adalah salah satu teknik algoritma unsupervised learning yang umum digunakan dengan tujuan untuk mengurangi jumlah variabel acak yang sedang dipertimbangkan. Salah satu tujuan pengurangan dimensi adalah untuk mengurangi kompleksitas masalah dengan memproyeksikan ruang fitur ke ruang dimensi yang lebih rendah sehingga variabel yang kurang berkorelasi dapat dihapus. Pendekatan yang paling umum digunakan dalam pengurangan dimensi adalah algoritma PCA, t-SNE, dan UMAP. algoritma-algoritma ini sangat berguna untuk mengurangi kompleksitas masalah dan memvisualisasikan sampel data dengan lebih baik.

Machine learning berhubungan erat dengan data science. Kedua istilah ini banyak dipakai dan dikombinasikan untuk membentuk algoritma yang powerful. Dalam data science, proses pengolahan data tidak bisa dilakukan menggunakan metode konvensional sehingga membutuhkan algoritma machine learning agar proses pengolahan data lebih cepat. Baik data science dan machine learning sama-sama banyak dibutuhkan oleh perusahaan karena dapat menghasilkan informasi yang insightful yang berguna bagi performa perusahaan. Fakta unik dari data science adalah ilmu ini dapat dipelajari oleh siapapun, bahkan dapat dipelajari oleh orang-orang yang tidak memiliki basic IT dan statistika.

Sumber:

Pertemuan 3 Machine Learning Institut Teknologi PLN
https://www.dqlab.id/pahami-algoritma-machine-learning-bersama-dqlab#:~:text=Salah%20satu%20contoh%20supervised%20learning%20adalah%20klasifikasi%20dan%20regresi.&text=Sedangkan%20yang%20dimaksud%20dengan%20unsupervised,memiliki%20variabel%20output%20yang%20sesuai.
https://www.dqlab.id/algoritma-supervised-vs-unsupervised-learning-apa-bedanya

Cari Blog Ini

GENERASI MAJU