MATLAB PROGRAMI VE KÜMELEME ANALİZİ KULLANILARAK BİR VERİ ÜZERİNDEKİ SINIFLAMA DURUMUNUN İNCELENMESİ


Taşdemir F.

9. Uluslararası Eğitimde ve Psikolojide Ölçme ve Değerlendirme Kongresi, Ankara, Türkiye, 3 - 06 Eylül 2024, ss.1-2

  • Yayın Türü: Bildiri / Özet Bildiri
  • Basıldığı Şehir: Ankara
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1-2
  • Recep Tayyip Erdoğan Üniversitesi Adresli: Evet

Özet

Verilerin sınıflanması amacıyla kullanılan istatistiksel programlar ve veri analizleri bulunmaktadır.  Bu analiz yöntemleri ile ikili ve çoklu karşılaştırmalarda literatürde yer almaktadır. Ancak, eğitimde simülatif veri üzerinden bir matris yazılım programı  olan  MATLAB ve kümeleme analizinin birlikte kullanıldığı bir sınıflama çalışmasına rastlanmamaktadır. Kümeleme analizi, bir veri setine ait elemanların, benzer özelliklerine göre homojen gruplara ayrılmasını sağlayan çok değişkenli istatistik teknikler içeren bir analizidir. Bu kümeler yüksek düzeyde küme içi homojenlik ve kümeler arası heterojenlik gösterir. K-ortalamalar algoritması, klasik kümeleme algoritmalarından en yaygın şekilde kullanılan ve her verinin sadece bir kümeye ait olabilmesine imkân veren keskin bir kümeleme algoritmasıdır. Küme benzerliği, kümenin ağırlık merkezi olarak kabul edilen bir nesne ile kümedeki diğer nesneler arasındaki uzaklıkların ortalama değeri ile ölçülmektedir. MATLAB (Matrix laboratory) yazılım programı da eleman, birimler arasındaki uzaklıkları veren sınıflama amacı ile de kullanılabilen ve hesaplama kolaylığı sunan bir programdır. MATLAB dinamik tipli bir programlama dilidir. Bir veri elementini bir matrix olarak değerlendirir. Bir tam sayı, bir satır ve bir sütundan oluşan bir matrix olarak değerlendirilir. Matrix toplama, çarpma ve tersi gibi matrix işlemleri için gömülü hazır fonksiyonlar sağlar. MATLAB daha çok  sayısal lineer cebir hesaplamaları, bulanık sistemler, data analizi ve görselleştirme, kodlama, mühendislik, makine öğrenmesi, derin öğrenme, simülasyon ve yazılım alanlarında araştırmacılar tarafından tercih edilmektedir.  Sistemlerin analizinde ve matematiksel hesaplamaların yapılıp görselleştirilmesinde kolaylık sunar. Eğitim alanında da amaca uygun kullanım alanı sunmaktadır. Bu araştırmada, MATLAB programı ve kümeleme analizi kullanılarak bir veri üzerindeki sınıflama durumu incelenmiştir. Bu amaç doğrultusunda belirlenen sorulara yanıt aranmıştır: 1. MATLAB programı ve kümeleme analizi ile oluşan küme sayısı nedir? 2. K-means algoritmasında iki uygulama için sınıflama doğruluğu nedir? Araştırma sorularının yanıtlanması ve MATLAB programının kullanılabilmesi için belirli sayısal değerlere ihtiyaç duyulmaktadır. Bu sebeple araştırmanın çalışma grubu için simülatif veri üretilmiştir. Simülasyon, kullanıcının geniş kontrole sahip olmasını sağlar. Veri olarak sıralanmış 50 veri kullanılmaktadır. Literatürde sık konu edinilen ve yorumlama kolaylığı sunması açısından simülatif veri “kaygı” değişkeni isimi ile oluşturulmuştur. MATLAB, değişken sınıflarına ve referans sınıflarına sahiptir. Simülatif veri özellikle robotik, biyomekanik ve yazılımlar için uygundur. Verinin analizi sonucunda kümeleme analizinde kaygı değişkeni üç küme altında sınıflanmıştır (p<.05). En büyük kümede 34 veri, en küçük kümede ise 6 veri bulunmaktadır. Aynı veri için MATLAB programında [idx,ort,sumd,D] = kmeans(verisetim,3); komutu işletildiğinde K-means için kaygı değişkeni aynı şekilde üç küme altında yer almıştır (p<.05). Hem MATLAB hem de kümeleme analizinde yapılan sınıflama analizlerinde küme sayılarının aynı olmakla birlikte verilerin kümlerde dağılımının sayısal olarak değiştiği görülmektedir. MATLAB programında kümelerin ortalamaları 1 =35.66, 2 =64.42 ve  3 =51.16 olarak bulunmuştur.  50x1 double veri uzaklıkları incelendiğinde N1= 35, N2= 3, N3= 12 veri olduğu görülmüştür. PLOTS menüsü incelendiğinde  kümeleme analizi ile benzerlik sınıflama yönleri görülmektedir.

Kümeleme analizi için araştırmalarda büyük veri setlerine ihtiyaç olduğu bilinmektedir. Ancak, bu örnek uygulamada küçük veri setlerinde MATLAB yazılımında veriler arasındaki uzaklık, ortalama, toplam uzaklığın daha ayrıntılı olduğu ve kullanıma elverişli olduğu görülmüştür. MATLAB uygulamasının veri  kümelemesi için  kullanıcı dostu bir ortam sunduğu görülmektedir.

 

Anahtar Kelimeler: MATLAB programı, sınıflama, kümeleme analizi