A Comparative Application on Clustering of Mixed-type Data Sets with kamila, k-means, k-medoids and k-prototypes Algorithms
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Cluster Analysis is one of the crucial tools which is being used in many areas of scientific researches. As known, there are many algorithms for performing Cluster Analysis.Nowadays, the main two debates relating to these algorithms are; which one to use for mixedtype data sets and how to decide selecting the best number of clusters. In this study, KAMILA algorithm which is created very ambitiously and other algorithms used before KAMILA such as k-means, k-medoids and k-prototypes algorithms will be performed for clustering the valuesof different scaled variables. With this aim, a data set of a grocery store in Istanbul will be analyzed. The company has stores in different districts of Istanbul and the customers have different demographic characteristics and different purchasing behaviors. The data set provided for 999 customers includes information such as; whether the customers are purchasing the product categories that are crucial for the company's profitability and how much the total price of the purchased items are. These data were subjected to clustering analysis for customer segmentation. As a result, it is observed that KAMILA algorithm can successfully identify the customers in the segment that can be named the gold segment.
Kümeleme Analizi Sosyal Bilimlerden Fen Bilimlerine birçok alanda yaygin olarak kullanilan önemli bir araçtir. Kümeleme Analizini gerçeklestirebilmek için hazirlanmis pek çok algoritma mevcuttur. Günümüzde bu algoritmalar ile ilgili olarak en çok tartisilan hususlardan ilk ikisinin, karma tipteki veri setleri için hangi kümeleme algoritmasinin kullanilmasi gerektigi ve en iyi küme sayisinin nasil belirlenebilecegi oldugu söylenebilir. Bu çalismada, farkli ölçeklerle ölçülmüs karma tipteki degiskenlerin degerlerini içeren bir veri seti, bu tip veriler için yeni ve çok iddiali bir sekilde olusturulmus olan KAMILA algoritmasi ile analiz edilecektir. Daha sonra veri seti bu algoritmadan önce karma tipteki veriler için kullanilagelen k-ortalamalar, k-ortaylar ve k-prototipler gibi algoritmalarla da kümelere ayrilacaktir. Bu dogrultuda, Istanbul’da faaliyet gösteren yerel bir süpermarket zincirinden saglanan alisveris islem verileri, R programlama dili kullanilarak analiz edilmistir. Magazalari Istanbul’un farkli semtlerinde bulunan bu firmanin müsterileri farkli demografik özelliklere ve farkli satin alma davranislarina sahiptir. Islem kolayligi açisindan 999 müsteri için saglanmis olan veri kümesi, müsterilerin firmanin kârliligi açisindan önem arz eden ürün kategorilerinden alis veris yapip yapmadiklarini ve satin alinan ürünlerin toplam fiyatinin ne kadar olduklarini içermektedir. Bu veriler müsteri segmentasyonu amaciyla kümeleme analizine tâbi tutulmustur. Sonuç olarak, KAMILA algoritmasinin altin segment olarak isimlendirebilecek segmentteki müsterileri basariyla tespit edebildigi gözlenmistir.










