Nesne örneklerinin küme analizi. Veri Madenciliğinde kümeleme görevleri. Çıkış aralığının kümelenmesi

Random Forest, en sevdiğim veri madenciliği algoritmalarından biridir. İlk olarak, inanılmaz derecede çok yönlüdür, hem regresyon hem de sınıflandırma problemlerini çözmek için kullanılabilir. Anormallikleri arayın ve tahmin edicileri seçin. İkincisi, bu yanlış uygulanması gerçekten zor bir algoritmadır. Basitçe, diğer algoritmalardan farklı olarak, birkaç özelleştirilebilir parametreye sahip olduğu için. Yine de özünde şaşırtıcı derecede basittir. Aynı zamanda, son derece doğru.

Böyle harika bir algoritma fikri nedir? Fikir basit: Diyelim ki çok zayıf bir algoritmamız var, diyelim . Bu zayıf algoritmayı kullanarak birçok farklı model yaparsak ve tahminlerinin sonucunun ortalamasını alırsak, nihai sonuç çok daha iyi olacaktır. Bu, sözde topluluk öğrenme eylemidir. Rastgele Orman algoritması bu nedenle "Rastgele Orman" olarak adlandırılır, alınan veriler için birçok karar ağacı oluşturur ve ardından tahminlerinin sonucunun ortalamasını alır. Burada önemli bir nokta, her ağacın oluşturulmasında rastlantısallık unsurudur. Sonuçta, birçok özdeş ağaç yaratırsak, ortalamalarının sonucunun bir ağacın doğruluğuna sahip olacağı açıktır.

O nasıl çalışır? Diyelim ki bazı girdi verilerimiz var. Her sütun bazı parametrelere, her satır bazı veri öğelerine karşılık gelir.

Tüm veri kümesinden rastgele bir dizi sütun ve satır seçebilir ve bunlardan bir karar ağacı oluşturabiliriz.


10 Mayıs 2012 Perşembe

12 Ocak 2012 Perşembe


Aslında hepsi bu. 17 saatlik uçuş bitti, Rusya denizaşırı kaldı. Ve 2 yatak odalı rahat bir dairenin penceresinden, San Francisco, ünlü Silikon Vadisi, California, ABD bize bakıyor. Evet, son zamanlarda pek yazmamamın nedeni de bu. Biz taşındık.

Her şey Nisan 2011'de Zynga ile yaptığım bir telefon görüşmesiyle başladı. Sonra hepsi gerçeklikle ilgisi olmayan bir tür oyun gibi geldi ve neye yol açacağını hayal bile edemedim. Haziran 2011'de Zynga Moskova'ya geldi ve bir dizi görüşme gerçekleştirdi, bir telefon görüşmesini geçen yaklaşık 60 aday değerlendirildi ve aralarından yaklaşık 15 kişi seçildi (tam rakamı bilmiyorum, daha sonra birileri fikrini değiştirdi, biri hemen reddetti). Röportajın şaşırtıcı derecede basit olduğu ortaya çıktı. Sizin için hiçbir programlama görevi yok, kapakların şekli hakkında karmaşık sorular yok, özellikle sohbet etme yeteneği test edildi. Ve bilgi, bence, sadece yüzeysel olarak değerlendirildi.

Ve sonra hile başladı. Önce sonuçları bekledik, sonra teklif, ardından LCA'nın onaylanması, ardından vize dilekçesinin onaylanması, ardından ABD'den gelen belgeler, ardından büyükelçilikteki hat, ardından ek kontrol, ardından vize. Bazen bana her şeyi bırakıp gol atmaya hazırmışım gibi geliyordu. Bazen bu Amerika'ya ihtiyacımız olup olmadığından şüphe ettim, çünkü Rusya da fena değil. Tüm süreç yaklaşık yarım yıl sürdü, sonunda Aralık ayının ortasında vize aldık ve yola çıkmak için hazırlanmaya başladık.

Pazartesi yeni işimde ilk günümdü. Ofis sadece çalışmak için değil, aynı zamanda yaşamak için de tüm koşullara sahiptir. Kendi şeflerimizden kahvaltılar, öğle ve akşam yemekleri, her köşede doldurulmuş çeşitli yiyecekler, spor salonu, masaj ve hatta kuaför. Bütün bunlar çalışanlar için tamamen ücretsizdir. Birçoğu işe bisikletle gidiyor ve birkaç oda, araçları depolamak için donatılmıştır. Genel olarak, Rusya'da hiç böyle bir şey görmedim. Ancak her şeyin bir bedeli vardır, çok çalışmamız gerektiği konusunda hemen uyarıldık. Standartlarına göre "çok" olan şey benim için çok açık değil.

Bununla birlikte, çok fazla çalışmaya rağmen, öngörülebilir gelecekte blog yazmaya devam edebileceğimi ve belki de Amerikan hayatı ve Amerika'da bir programcı olarak çalışmak hakkında bir şeyler anlatabileceğimi umuyorum. Bekle ve gör. Bu arada, hepinize Mutlu Noeller ve Mutlu Yıllar diliyorum ve yakında görüşürüz!


Örnek bir kullanım durumu için, temettü verimini yazdırın Rus şirketleri. Olarak taban fiyat, sicilin kapandığı gün hissenin kapanış fiyatını alıyoruz. Nedense bu bilgi Troika web sitesinde mevcut değil ve temettülerin mutlak değerlerinden çok daha ilginç.
Dikkat! Kodun yürütülmesi uzun zaman alıyor, çünkü Her hisse senedi için finam sunucularına talepte bulunmanız ve değerini almanız gerekmektedir.

sonuç<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0)( dene(( tırnak işaretleri<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0)(dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Benzer şekilde, geçmiş yıllar için istatistikler oluşturabilirsiniz.

Küme analizinin görevleri

Küme analizi aşağıdaki ana görevleri gerçekleştirir:

  • · Nesnelerin gruplandırılması şemalarının araştırılması;
  • · Araştırma verileri temelinde hipotezlerin geliştirilmesi;
  • · Hipotezlerin ve araştırma verilerinin doğrulanması;
  • · Veriler içerisinde grupların varlığının belirlenmesi.

Küme analizinin aşamaları

Çalışma konusu ne olursa olsun, küme analizinin kullanımı aşağıdaki adımları içerir:

  • 1. Kümeleme için örnekleme;
  • 2. Özellik alanı tahsisi;
  • 3. Nesneler arasındaki benzerlik (mesafe) ölçüsü seçimi;
  • 4. Kümeleme analizi yönteminin uygulanması;
  • 5. Kümeleme sonuçlarını kontrol etme.

İki temel veri gereksinimi vardır:

  • · Homojenlik - kümelenmiş tüm varlıkların tek tip doğasını garanti etme ihtiyacı. Yani, tüm nesneler benzer bir dizi özellik ile tanımlanmalıdır;
  • · Tamlık - Verilerin içeriği, belirli bir soruna rasyonel veya optimal bir çözüm için gerekli olan, isimlendirmeleri boyunca yeterlidir.
  • · Veri işlemeyi ve karar vermeyi basitleştiren küme yapısının anlaşılmasını kolaylaştırmak için numuneyi benzer nesne gruplarına bölmek, her kümeye kendi analiz yöntemini uygulamak.
  • · Veri miktarının azaltılması, her sınıftan en tipik temsilcilerin bir veya daha fazlasının bırakılması. Bu tür problemlerde, her küme içindeki nesnelerin yüksek derecede benzerliğini sağlamak daha önemlidir ve herhangi bir sayıda küme olabilir.
  • · Kümelerin yeniliğini veya sayılarını belirlemek için atipik nesnelerin, anormalliklerin veya aykırı değerlerin seçimi. En büyük ilgi, kümelerin hiçbirine uymayan bireysel nesnelerdir.

Tüm bu durumlarda, hiyerarşik kümeleme, büyük kümeler daha küçük kümelere bölündüğünde, bunlar da daha küçüklere bölündüğünde vb. uygulanabilir. Bu tür görevlere taksonomi görevleri denir. Taksonominin sonucu, ağaç benzeri bir hiyerarşik yapıdır. Ek olarak, her nesne, ait olduğu tüm kümelerin, genellikle büyükten küçüğe bir numaralandırılmasıyla karakterize edilir.

İstatistikte iki ana küme analizi türü vardır (her ikisi de SPSS'de temsil edilir): hiyerarşik ve k-ortalamalar. İlk durumda, otomatikleştirilmiş istatistiksel prosedür, optimal küme sayısını ve kümeleme için gerekli bir dizi başka parametreyi bağımsız olarak belirler.

analiz. İkinci analiz türü, pratik uygulanabilirlikte önemli sınırlamalara sahiptir - bunun için, tahsis edilen kümelerin tam sayısını ve her kümenin merkezlerinin (merkezler) başlangıç ​​değerlerini ve diğer bazı istatistikleri bağımsız olarak belirlemek gerekir. K-ortalamalar yöntemiyle analiz yapılırken, bu problemler önceden hiyerarşik bir küme analizi yapılarak ve daha sonra sonuçlarına göre küme modeli k-ortalamalar yöntemi kullanılarak hesaplanarak çözülür. , aksine, bir araştırmacının çalışmasını zorlaştırır (özellikle hazırlıksız olanı).

Genel olarak, hiyerarşik küme analizinin bilgisayar donanım kaynakları üzerinde çok talepkar olması nedeniyle, koşullar altında binlerce gözlemden (yanıtlayanlardan) oluşan çok büyük veri kümelerini işlemek için k-ortalama kümeleme analizinin SPSS'ye dahil edildiğini söyleyebiliriz. bilgisayar donanımının yetersiz kapasitesi1. Pazarlama araştırmasında kullanılan örneklem büyüklükleri çoğu durumda dört bin katılımcıyı geçmez. Uygulama Pazarlama araştırması her durumda en alakalı, evrensel ve doğru olarak kullanılması önerilen ilk kümeleme analizi türü - hiyerarşik - olduğunu gösterir. Aynı zamanda kümeleme analizi yapılırken ilgili değişkenlerin seçiminin önemli olduğu vurgulanmalıdır. Bu açıklama çok önemlidir, çünkü analize birkaç veya hatta bir alakasız değişkenin dahil edilmesi tüm istatistiksel prosedürün başarısız olmasına yol açabilir.

Pazarlama araştırması uygulamasından aşağıdaki örneği kullanarak küme analizi yürütme metodolojisini açıklayacağız.

İlk veri:

Çalışma sırasında 22 Rus ve yabancı havayolundan biriyle uçan 745 hava yolcusu ile görüşülmüştür. Hava yolcularından, check-in işlemi sırasında havayolu yer personeli performansının yedi yönünü 1 (çok zayıf) ile 5 (mükemmel) arasında beş puanlık bir ölçekte derecelendirmeleri istendi: nezaket, profesyonellik, çabukluk, yardımseverlik, kuyruk yönetimi , görünüm, genel olarak çalışma personeli.

Gerekli:

İncelenen havayollarını, hava yolcuları tarafından algılanan yer personelinin çalışma kalitesi düzeyine göre bölümlere ayırın.

Böylece, çeşitli havayollarının yer personelinin (ql3-ql9) performans derecelendirmelerini gösteren ve tek bir beş puanlık ölçekte sunulan yedi aralık değişkeninden oluşan bir veri dosyamız var. Veri dosyası, katılımcılar tarafından seçilen havayollarını (toplam 22) gösteren tek bir değişken q4 içerir. Bir küme analizi yapalım ve hangisi olduğunu belirleyelim. hedef guruplar havayolu verilerini paylaşabilirsiniz.

Hiyerarşik küme analizi iki aşamada gerçekleştirilir. İlk aşamanın sonucu, incelenen yanıtlayıcı örneğinin bölünmesi gereken kümelerin (hedef segmentler) sayısıdır. Kümeleme analizi prosedürü bu şekilde değildir.

optimal küme sayısını bağımsız olarak belirleyebilir. Sadece istenen numarayı önerebilir. Optimum segment sayısını belirleme sorunu kilit bir sorun olduğundan, genellikle analizin ayrı bir aşamasında çözülür. İkinci aşamada, analizin ilk aşamasında belirlenen küme sayısına göre gözlemlerin fiili kümelenmesi gerçekleştirilir. Şimdi sırasıyla bu küme analizi adımlarına bakalım.

Küme analizi prosedürü, Analiz Et > Sınıflandır > Hiyerarşik Küme menüsü kullanılarak başlatılır. Açılan iletişim kutusunda, veri dosyasında bulunan tüm değişkenlerin soldaki listesinden, segmentasyon kriteri olan değişkenleri seçin. Bizim durumumuzda bunlardan yedi tane var ve yer personeli ql3-ql9'un çalışma parametrelerinin tahminlerini gösteriyorlar (Şekil 5.44). Prensip olarak, kümeleme analizinin ilk aşamasını gerçekleştirmek için bir dizi segmentasyon kriteri belirlemek oldukça yeterli olacaktır.

Pirinç. 5.44.

Varsayılan olarak, küme oluşumunun sonuçlarını içeren tabloya ek olarak, optimal sayılarını belirleyeceğiz, SPSS ayrıca programın yaratıcılarının amacına göre özel bir ters çevrilmiş histogram saçağı görüntüler. , optimal küme sayısının belirlenmesine yardımcı olur; Grafikler, Plots düğmesi kullanılarak görüntülenir (Şekil 5.45). Ancak, bu seçenek kümesini bırakırsak, nispeten küçük bir veri dosyasını bile işlemek için çok zaman harcayacağız. Saçağına ek olarak, Plots penceresinde daha hızlı bir Dendogram çubuk grafiği seçilebilir. Küme oluşum sürecini yansıtan yatay çubuklardır. Teorik olarak, az sayıda (50-100'e kadar) yanıt veren ile bu diyagram, gerekli sayıda küme için en uygun çözümü seçmeye gerçekten yardımcı olur. Ancak pazarlama araştırmalarından elde edilen hemen hemen tüm örneklerde örneklem büyüklüğü bu değeri aşmaktadır. Dendogram tamamen işe yaramaz hale gelir, çünkü nispeten az sayıda gözlemle bile, orijinal veri dosyasının yatay ve dikey çizgilerle birbirine bağlanan çok uzun bir satır numarası dizisidir. Çoğu SPSS ders kitabı, sadece bu tür yapay, küçük örnekler üzerinde küme analizi örnekleri içerir. Bu öğreticide, pratik bir ortamda ve gerçek pazar araştırması örneklerinde SPSS'den en iyi şekilde nasıl yararlanabileceğinizi gösteriyoruz.

Pirinç. 5.45.

Belirttiğimiz gibi, ne Icicle ne de Dendogram pratik amaçlar için uygun değildir. Bu nedenle, Hiyerarşik Kümeleme Analizinin ana iletişim kutusunda, Şek. 5.44. Artık küme analizinin ilk aşamasını gerçekleştirmek için her şey hazır. OK butonunu tıklayarak işlemi başlatın.

Bir süre sonra sonuçlar SPSS Viewer penceresinde görünecektir. Yukarıda bahsedildiği gibi, bizim için önemli olan analizin ilk aşamasının tek sonucu Şekil 2'de gösterilen Ortalama Bağlantı (Gruplar Arası) tablosu olacaktır. 5.46. Bu tabloya dayanarak, optimal küme sayısını belirlememiz gerekir. Optimal küme sayısını belirlemek için tek bir evrensel yöntem bulunmadığına dikkat edilmelidir. Her durumda, araştırmacı bu sayıyı kendisi belirlemelidir.

Deneyime dayanarak, yazar bu sürecin aşağıdaki şemasını önermektedir. Her şeyden önce, küme sayısını belirlemek için en yaygın standart yöntemi uygulamaya çalışalım. Ortalama Bağlantı (Gruplar Arası) tablosunu kullanarak, kümelenme katsayısındaki ilk nispeten büyük sıçramanın (sütun Katsayıları) küme oluşturma sürecinin (sütun Aşaması) hangi adımında gerçekleştiğini belirlemek gerekir. Bu sıçrama, ondan önce, birbirinden oldukça küçük mesafelerdeki gözlemlerin kümeler halinde birleştirildiği (bizim durumumuzda, analiz edilen parametreler açısından benzer düzeyde değerlendirmeye sahip katılımcılar) ve bu aşamadan başlayarak, daha uzak gözlemlerin olduğu anlamına gelir. birleştirildi.

Bizim durumumuzda, katsayılar 0'dan 7.452'ye sorunsuz bir şekilde artar, yani ilk adımdan 728'e kadar olan adımlardaki katsayılar arasındaki fark küçüktü (örneğin, 728 ile 727 adım arasında - 0,534). 729. adımdan başlayarak, katsayıdaki ilk önemli sıçrama gerçekleşir: 7.452'den 10.364'e (2.912'ye kadar). Katsayının ilk sıçramasının gerçekleştiği adım 729'dur. Şimdi, optimal küme sayısını belirlemek için, elde edilen değerden elde edilen değeri çıkarmak gerekir. toplam sayısı gözlemler (örnek boyutu). Olgumuzda toplam örneklem büyüklüğü 745 kişidir; bu nedenle optimal küme sayısı 745-729 = 16'dır.


Pirinç. 5.46.

Gelecekte yorumlanması zor olacak oldukça fazla sayıda kümemiz var. Bu nedenle artık ortaya çıkan kümelerin incelenerek hangilerinin anlamlı, hangilerinin azaltılmaya çalışılması gerektiğini belirlemek gerekmektedir. Bu problem küme analizinin ikinci aşamasında çözülür.

Küme analizi prosedürünün ana iletişim kutusunu açın (menü Analiz Et > Sınıflandır > Hiyerarşik Küme). Analiz edilen değişkenler alanında zaten yedi parametremiz var. Kaydet düğmesini tıklayın. Açılan iletişim kutusu (Şekil 5.47), kaynak veri dosyasında yanıtlayanları hedef gruplara dağıtan yeni bir değişken oluşturmanıza olanak tanır. Tek Çözüm seçeneğini seçin ve ilgili alanda gerekli küme sayısını belirtin - 16 (küme analizinin ilk aşamasında belirlenir). Devam düğmesine tıklayarak, küme analizi prosedürünü başlatmak için Tamam düğmesine tıklayabileceğiniz ana iletişim kutusuna dönersiniz.

Kümeleme analizi sürecinin açıklamasına devam etmeden önce diğer parametreleri kısaca açıklamak gerekir. Bunların arasında hem kullanışlı özellikler hem de aslında gereksiz (pratik pazarlama araştırması açısından) vardır. Örneğin, ana Hiyerarşik Küme Analizi iletişim kutusu, isteğe bağlı olarak yanıtlayanları tanımlayan bir metin değişkeni yerleştirebileceğiniz bir Alana Göre Etiketleme Vakaları içerir. Bizim durumumuzda, ankete katılanlar tarafından seçilen havayollarını kodlayan q4 değişkeni bu amaçlara hizmet edebilir. Pratikte, Etiket Kutularının alana göre kullanımı için rasyonel bir açıklama bulmak zordur, bu nedenle her zaman güvenle boş bırakabilirsiniz.

Pirinç. 5.47.

Nadiren, küme analizi yapılırken, ana iletişim kutusunda aynı adı taşıyan düğme tarafından çağrılan İstatistikler iletişim kutusu kullanılır. Kaynak veri dosyasındaki her yanıtlayanın bir küme numarasıyla eşlendiği SPSS Görüntüleyici penceresinde Küme Üyeliği tablosunu görüntülemenizi sağlar. Yeterince fazla sayıda katılımcıyla (neredeyse tüm pazarlama araştırması örneklerinde), bu tablo tamamen işe yaramaz hale gelir, çünkü bu formda yorumlanamayan uzun bir “yanıt veren sayı / küme numarası” değer çiftleri dizisidir. . Kümeleme analizinin teknik amacı, veri dosyasında her zaman yanıtlayanların hedef gruplara bölünmesini yansıtan ek bir değişken oluşturmaktır (ana küme analizi iletişim kutusundaki Kaydet düğmesine tıklayarak). Bu değişken, yanıtlayanların sayısıyla birlikte Küme Üyeliği tablosudur. İstatistik penceresindeki tek pratik seçenek Ortalama Bağlantı (Gruplar Arası) tablosunu görüntülemektir, ancak bu zaten varsayılan olarak ayarlanmıştır. Bu nedenle, SPSS Viewer penceresinde İstatistikler düğmesinin kullanılması ve ayrı bir Küme Üyeliği tablosunun gösterilmesi pratik değildir.

Plots düğmesi yukarıda zaten belirtilmiştir: ana küme analizi iletişim kutusunda Plots parametresinin seçimi kaldırılarak devre dışı bırakılmalıdır.

Kümeleme analizi prosedürünün bu nadiren kullanılan özelliklerine ek olarak, SPSS ayrıca bazı çok kullanışlı seçenekler sunar. Bunların arasında ilk olarak, kaynak veri dosyasında yanıtlayanları kümelere dağıtan yeni bir değişken oluşturmanıza olanak sağlayan Kaydet düğmesi bulunur. Ayrıca ana iletişim kutusunda, kümeleme nesnesini seçmek için bir alan vardır: yanıtlayanlar veya değişkenler. Bu olasılık yukarıda bölüm 5.4'te tartışılmıştır. İlk durumda, küme analizi esas olarak yanıtlayanları bazı kriterlere göre bölümlere ayırmak için kullanılır; ikincisinde, küme analizinin amacı faktör analizine benzer: değişkenlerin sınıflandırılması (sayıda azalma).

Olarak Şekil l'de görülebilir. 5.44, dikkate alınmayan küme analizinin tek olasılığı, istatistiksel prosedür Yöntemini yürütme yöntemini seçme düğmesidir. Bu Parametre ile denemeler yapmak, optimal küme sayısını belirlemede daha fazla doğruluk elde etmenizi sağlar. Varsayılan ayarlarla bu iletişim kutusunun genel görünümü, şekil 2'de gösterilmiştir. 5.48.

Pirinç. 5.48.

Bu pencerede ayarlanan ilk şey, küme oluşturma yöntemidir (yani, gözlemleri birleştirme). SPSS tarafından sunulan istatistiksel yöntemler için tüm olası seçenekler arasında, varsayılan Gruplar arası bağlantı yöntemini veya Koğuş'u (Ward'ın yöntemi) seçmelisiniz. İlk yöntem, çok yönlülüğü ve göreceli basitliği nedeniyle daha sık kullanılır. dayandığı istatistiksel prosedür Bu yöntemi kullanarak, kümeler arasındaki mesafe, her yineleme bir kümeden bir gözlem ve diğerinden ikincisini içeren olası tüm gözlem çiftleri arasındaki mesafelerin ortalaması olarak hesaplanır. Ward yönteminin anlaşılması daha zordur ve daha az kullanılır. Birçok aşamadan oluşur ve her gözlem için tüm değişkenlerin değerlerinin ortalamasının alınmasına ve ardından hesaplanan ortalamalardan her gözleme olan uzaklıkların karesinin toplanmasına dayanır. pratik amaçlar, pazarlama Yeni araştırmalar için her zaman varsayılan Gruplar arası bağlantı yöntemini kullanmanızı öneririz.

Bir istatistiksel kümeleme prosedürü seçtikten sonra, gözlemler arasındaki mesafeleri hesaplamak için bir yöntem seçin (Yöntem iletişim kutusundaki Ölçüm alanı). Kümeleme analizinde yer alan üç tür değişken için mesafeleri belirlemek için farklı yöntemler vardır (bölümleme kriterleri). Bu değişkenler bir aralık (Aralık), nominal (Sayılar) veya ikili (İkili) ölçeğe sahip olabilir. İkili ölçek (İkili) yalnızca bir olayın meydana gelip gelmediğini (alındı/satın alınmadı, evet/hayır vb.) yansıtan değişkenleri ifade eder. Diğer ikili değişken türleri (örneğin, erkek/kadın) nominal (Sayılar) olarak düşünülmeli ve analiz edilmelidir.

Aralık değişkenleri için mesafeleri belirlemek için en sık kullanılan yöntem varsayılan Kare Öklid Mesafesidir. Pazarlama araştırmasında kendini en doğru ve evrensel olarak kanıtlamış olan bu yöntemdir. Ancak gözlemlerin yalnızca iki değerle (örneğin 0 ve 1) temsil edildiği ikili değişkenler için bu yöntem uygun değildir. Buradaki nokta, yalnızca şu türdeki gözlemler arasındaki etkileşimleri dikkate almasıdır: X = 1,Y = 0 ve X = 0, Y=l (burada X ve Y değişkendir) ve diğer etkileşim türlerini hesaba katmaz. İki ikili değişken arasındaki tüm önemli etkileşim türlerini hesaba katan en kapsamlı mesafe ölçüsü Lambda yöntemidir. Çok yönlülüğü nedeniyle bu yöntemi kullanmanızı öneririz. Ancak Shape, Hamann veya Anderbergs's D gibi başka yöntemler de vardır.

İkili değişkenler için mesafeleri belirleme yöntemini belirlerken, ilgili alanda incelenen ikili değişkenlerin alabileceği belirli değerleri belirtmek gerekir: Mevcut alanda - Evet kodlama yanıtı ve Yok alanında - Hayır . Var olan ve olmayan alanların adları, Binary yöntem grubunda yalnızca bir olayın meydana gelip gelmediğini yansıtan ikili değişkenleri kullanması gerektiği gerçeğiyle ilişkilidir. Interval ve Binary değişkenlerinin iki türü için, mesafeyi belirlemek için çeşitli yöntemler vardır. Nominal ölçek tipine sahip değişkenler için SPSS yalnızca iki yöntem sunar: (Ki-kare ölçüsü) ve (Fi-kare ölçüsü). İlk yöntemi en yaygın olarak kullanmanızı öneririz.

Yöntem iletişim kutusunda, Standartlaştır alanı içeren bir Değerleri Dönüştür alanı bulunur. Bu alan, farklı ölçek türlerine sahip değişkenler (örneğin, aralık ve nominal) küme analizinde yer aldığında kullanılır. Bu değişkenleri kümeleme analizinde kullanmak için tek tip bir ölçek - aralığına yönlendirerek standardizasyon yapmak gerekir. Değişken standardizasyonunun en yaygın yöntemi 2-standartlaştırmadır (Zskorlar): tüm değişkenler -3'ten +3'e kadar tek bir değer aralığına indirgenir ve dönüşümden sonra aralıktır.

Tüm optimal yöntemler (kümeleme ve mesafe belirleme) varsayılan olarak ayarlandığından, Yöntem iletişim kutusunun yalnızca analiz edilecek değişkenlerin türünü belirtmek ve değişkenlerin 2-standartlaştırılmasının gerçekleştirilmesi gerektiğini belirtmek için kullanılması önerilir.

Bu nedenle, küme analizi için SPSS tarafından sağlanan tüm ana özellikleri tanımladık. Havayollarını segmentlere ayırmak amacıyla yapılan küme analizinin açıklamasına dönelim. On altı kümelik bir çözüme karar verdiğimizi ve orijinal veri dosyasında yeni bir cul6_l değişkeni oluşturduğumuzu ve analiz edilen tüm havayollarını kümelere dağıttığımızı hatırlayın.

Optimal küme sayısını ne kadar doğru belirlediğimizi belirlemek için cul6_l değişkeninin doğrusal bir dağılımını oluşturacağız (menü Analiz Et > Tanımlayıcı İstatistikler > Frekanslar). Şekilde görüldüğü gibi. 5.49, 5-16 numaralı kümelerde cevaplayıcı sayısı 1 ile 7 arasında değişmektedir. yığılma katsayısı), ayrıca bir öneri daha vardır: kümelerin boyutu istatistiksel olarak anlamlı ve pratik olmalıdır. Bizim örneklem büyüklüğümüzle böyle bir kritik değer en az 10 seviyesinde ayarlanabiliyor. bu durum sadece 1-4 numaralı kümeler düşer. Bu nedenle, şimdi dört kümeli bir çözümün çıktısı ile küme analizi prosedürünü yeniden hesaplamak gereklidir (yeni bir du4_l değişkeni oluşturulacaktır).


Pirinç. 5.49.

Yeni oluşturulan du4_l değişkeni üzerinde doğrusal bir dağılım oluşturduktan sonra, yalnızca iki kümede (1 ve 2) yanıtlayanların sayısının pratik olarak önemli olduğunu göreceğiz. Şimdi iki kümeli bir çözüm için küme modelini yeniden oluşturmamız gerekiyor. Bundan sonra, du2_l değişkenine göre dağılımı oluşturuyoruz (Şekil 5.50). Tablodan da görebileceğiniz gibi, iki kümeli çözüm, oluşturulan iki kümenin her birinde istatistiksel ve pratik olarak önemli sayıda yanıtlayıcıya sahiptir: küme 1 - 695 yanıtlayan; küme 2 - 40'ta. Böylece, görevimiz için en uygun küme sayısını belirledik ve seçilen yedi kritere göre yanıtlayanların fiili bölümlendirmesini gerçekleştirdik. Şimdi görevimizin ana hedefini başarılmış olarak kabul edebilir ve küme analizinin son aşamasına - elde edilen hedef grupların (segmentlerin) yorumlanmasına geçebiliriz.


Pirinç. 5.50.

Ortaya çıkan çözüm, SPSS eğitimlerinde görmüş olabileceğiniz çözümlerden biraz farklıdır. En pratik yönelimli ders kitapları bile, kümelemenin ideal hedef yanıtlayıcı gruplarıyla sonuçlandığı yapay örnekler sağlar. Bazı durumlarda (5) yazarlar doğrudan örneklerin yapay kökenine işaret etmektedir. Bu derste, kümeleme analizinin çalışmasının bir örneği olarak ideal oranlarda farklılık göstermeyen pratik pazarlama araştırmalarından gerçek hayattan bir örnek kullanacağız. Bu, küme analizini yürütmedeki en yaygın zorlukları ve bunları ortadan kaldırmak için en iyi yöntemleri göstermemizi sağlayacaktır.

Ortaya çıkan kümelerin yorumuna geçmeden önce özetleyelim. Optimal küme sayısını belirlemek için aşağıdaki şemaya sahibiz.

¦ 1. adımda, aglomerasyon katsayısına dayalı bir matematiksel yönteme dayalı olarak küme sayısını belirliyoruz.

¦ 2. aşamada, yanıtlayıcıları elde edilen küme sayısına göre kümeler ve ardından oluşan yeni değişkene (cul6_l) göre doğrusal bir dağılım oluştururuz. Burada ayrıca kaç kümenin istatistiksel olarak anlamlı sayıda yanıtlayıcıdan oluştuğunu da belirlemelisiniz. Genel olarak, minimum anlamlı küme sayısının en az 10 yanıtlayıcı düzeyinde ayarlanması önerilir.

¦ Tüm kümeler bu kriteri karşılıyorsa, küme analizinin son aşamasına geçiyoruz: kümelerin yorumlanması. Önemsiz sayıda kurucu gözlemi olan kümeler varsa, önemli sayıda yanıtlayıcıdan kaç kümenin oluştuğunu belirleriz.

¦ Önemli sayıda gözlemden oluşan kümelerin sayısını Kaydet iletişim kutusunda belirterek küme analizi prosedürünü yeniden hesaplıyoruz.

¦ Yeni bir değişken üzerinde doğrusal bir dağılım oluşturuyoruz.

Bu eylem dizisi, tüm kümelerin istatistiksel olarak anlamlı sayıda yanıtlayıcıdan oluşacağı bir çözüm bulunana kadar tekrarlanır. Bundan sonra, küme analizinin son aşamasına - kümelerin yorumlanmasına geçebilirsiniz.

Küme sayısının pratik ve istatistiksel önemi kriterinin, optimal küme sayısının belirlenebileceği tek kriter olmadığı özellikle belirtilmelidir. Araştırmacı, deneyimine dayanarak bağımsız olarak kümelerin sayısını önerebilir (önem koşulu yerine getirilmelidir). Diğer bir seçenek ise, çalışmanın amaçları doğrultusunda, yanıtlayanları belirli sayıda hedef gruba göre segmentlere ayırmak için önceden bir koşul belirlendiğinde oldukça yaygın bir durumdur. Bu durumda, gerekli sayıda kümeyi koruyarak bir kez hiyerarşik küme analizi yapmanız ve ardından ne olduğunu yorumlamaya çalışmanız yeterlidir.

Ortaya çıkan hedef segmentleri tanımlamak için, çalışılan değişkenlerin (küme merkezleri) ortalama değerlerini karşılaştırma prosedürü kullanılmalıdır. Ortaya çıkan iki kümenin her birinde dikkate alınan yedi segmentasyon kriterinin ortalama değerlerini karşılaştıracağız.

Ortalamaları karşılaştırma prosedürü, Analiz Et > Ortalamaları Karşılaştır > Ortalamalar menüsü kullanılarak çağrılır. Açılan diyalog kutusunda (Şekil 5.51) soldaki listeden segmentasyon kriteri olarak seçilen yedi değişkeni (ql3-ql9) seçin ve bağımlı değişkenler için Dependent List alanına aktarın. Ardından, sorunun nihai (iki kümeli) çözümünde yanıtlayanların kümelere bölünmesini yansıtan сШ2_1 değişkenini soldaki listeden bağımsız değişkenler Bağımsız Liste alanına taşıyın. Ardından Seçenekler düğmesine tıklayın.

Pirinç. 5.51.

Seçenekler iletişim kutusu açılacaktır, kümeleri karşılaştırmak için gerekli istatistikleri seçin (Şekil 5.52). Bunu yapmak için, Hücre İstatistikleri alanında, diğer varsayılan istatistikleri kaldırarak yalnızca Ortalama değerlerin çıktısını bırakın. Devam düğmesine tıklayarak Seçenekler iletişim kutusunu kapatın. Son olarak, ana Araçlar iletişim kutusundan ortalama karşılaştırma prosedürünü başlatın (Tamam düğmesi).

Pirinç. 5.52.

Açılan SPSS Viewer penceresinde, ortalamaları karşılaştırmaya yönelik istatistiksel prosedürün sonuçları görünecektir. Rapor tablosuyla ilgileniyoruz (Şekil 5.53). Buradan SPSS'nin yanıtlayanları hangi temelde iki kümeye ayırdığını görebilirsiniz. Bizim durumumuzda, böyle bir kriter, analiz edilen parametreler için değerlendirme seviyesidir. Küme 1, tüm segmentasyon kriterleri için ortalama puanları nispeten yüksek (4,40 puan ve üzeri) olan katılımcılardan oluşur. Küme 2, dikkate alınan segmentasyon kriterlerini oldukça düşük (3,35 puan ve altı) derecelendiren katılımcıları içerir. Böylece, küme 1'i oluşturan katılımcıların %93,3'ünün analiz edilen havayollarını her açıdan genel olarak iyi olarak değerlendirdiği; %5,4 oldukça düşük; %1.3'ü cevap vermeyi zor buldu (bkz. Şekil 5.50). Şek. 5.53, ayrıca, ayrı ayrı ele alınan parametrelerin her biri için hangi derecelendirme seviyesinin yüksek ve hangisinin düşük olduğu sonucuna varılabilir (ve bu sonuç, yüksek sınıflandırma doğruluğunun elde edilmesini sağlayan katılımcılar tarafından yapılacaktır). Rapor tablosundan, Kuyruk Kısıtlama değişkeni için 4,40 ortalama puan seviyesinin yüksek kabul edildiğini ve parametre için ortalama puan seviyesinin yüksek olarak kabul edildiğini görebilirsiniz. Görünüm -- 4.72.


Pirinç. 5.53.

Benzer bir durumda, 4.5'in X parametresi için yüksek bir puan olduğu ve Y parametresi için yalnızca 3,9 olduğu ortaya çıkabilir. Bu bir kümeleme hatası olmayacak, aksine, ele alınan parametrelerin katılımcılar için önemi hakkında önemli bir sonuç çıkarmayı mümkün kılacaktır. Bu nedenle, Y parametresi için zaten 3,9 puan iyi bir tahmindir, X parametresi için ise yanıtlayıcılar daha katı gereksinimler getirmektedir.

Segmentasyon kriterlerine göre ortalama puanlar düzeyinde farklılık gösteren iki önemli küme belirledik. Artık alınan kümelere etiketler atayabilirsiniz: 1 - Yanıtlayanların gereksinimlerini karşılayan havayolları (analiz edilen yedi kritere göre); 2 için -- Ankete katılanların gereksinimlerini karşılamayan havayolları. Artık hangi havayollarının (q4 değişkeninde kodlanmış) yanıtlayanların gereksinimlerini karşıladığını ve hangilerinin segmentasyon kriterlerine göre karşılamadığını görebilirsiniz. Bunu yapmak için, clu2_l kümeleme değişkenine bağlı olarak q4 değişkeninin (analiz edilen havayolları) bir çapraz dağılımını oluşturmalısınız. Böyle bir enine kesit analizinin sonuçları Şekiller'de sunulmaktadır. 5.54.

Bu tabloya dayanarak, incelenen havayollarının seçilen hedef segmentlerdeki üyeliklerine ilişkin aşağıdaki sonuçlar çıkarılabilir.


Pirinç. 5.54.

1. Yer personelinin çalışması açısından tüm müşterilerin gereksinimlerini tam olarak karşılayan havayolları (yalnızca bir ilk kümeye dahildir):

¦ Vnukovo Havayolları;

¦ Amerikan Havayolları;

¦ Delta Havayolları;

Avusturya Havayolları;

¦ İngiliz Hava Yolları;

¦ Kore Havayolları;

Japonya Havayolları.

2. Yer personelinin çalışması açısından müşterilerinin çoğunun gereksinimlerini karşılayan havayolları (bu havayollarıyla uçan katılımcıların çoğu, yer personelinin çalışmasından memnundur):

¦ Transaero.

3. Yer personelinin çalışması açısından müşterilerinin çoğunluğunun gereksinimlerini karşılamayan havayolları (bu havayollarıyla uçan katılımcıların çoğu, yer personelinin çalışmasından memnun değildir):

¦ Domodedovo Havayolları;

¦ Pulkovo;

¦ Sibirya;

¦ Ural Havayolları;

¦ Samara Havayolları;

Böylece, katılımcıların yer personelinin çalışmasından değişen derecelerde memnuniyetleri ile karakterize edilen ortalama derecelendirme seviyesi ile üç hedef hava yolu segmenti elde edildi:

  • 1. yer personelinin çalışma düzeyi açısından yolcular için en çekici havayolları (14);
  • 2. oldukça çekici havayolları (1);
  • 3. oldukça çekici olmayan havayolları (7).

Cluster analizinin tüm aşamalarını başarıyla tamamladık ve havayollarını seçilen yedi kritere göre segmentlere ayırdık.

Şimdi faktör analizi ile eşleştirilmiş küme analizi metodolojisinin bir tanımını veriyoruz. Sorunun durumunu bölüm 5.2.1'deki (faktör analizi) kullanıyoruz. Daha önce de belirtildiği gibi, çok sayıda değişkenli segmentasyon problemlerinde, küme analizinden önce faktör analizi yapılması tavsiye edilir. Bu, segmentasyon kriterlerinin sayısını en önemli olanlara azaltmak için yapılır. Bizim durumumuzda, orijinal veri dosyasında 24 değişkenimiz var. Sonuç olarak faktor analizi sayılarını 5'e düşürmeyi başardık. Artık bu sayıda faktör küme analizi için etkin bir şekilde kullanılabilir ve faktörlerin kendileri segmentasyon kriteri olarak kullanılabilir.

Yanıtlayanları X havayolunun mevcut rekabet durumunun çeşitli yönlerine ilişkin değerlendirmelerine göre bölümlere ayırma göreviyle karşı karşıya kalırsak, belirlenen beş kritere (değişkenler nfacl_l-nfac5_l) göre hiyerarşik bir küme analizi yapabiliriz. Bizim olgumuzda değişkenler farklı ölçeklerde değerlendirilmiştir. Örneğin, havayolunun değişmesini istemem ifadesi için 1 puan ve Havayolundaki değişiklikler ifadesi için aynı puan, anlam olarak taban tabana zıt olumlu bir an olacaktır. İlk durumda, 1 puan (kesinlikle katılmıyorum), davalının havayolundaki değişiklikleri memnuniyetle karşıladığı anlamına gelir; ikinci durumda, 1 puan, yanıtlayıcının havayolundaki değişiklikleri reddettiğini gösterir. Kümeleri yorumlarken, anlam olarak zıt olan bu tür değişkenler değişebileceğinden, kaçınılmaz olarak zorluklarla karşılaşacağız.

aynı faktöre girer. Bu nedenle, segmentasyon amacıyla, önce çalışılan değişkenlerin ölçeklerinin hizaya getirilmesi ve ardından faktöriyel modelin yeniden hesaplanması önerilir. Ve dahası, faktör analizi sonucunda elde edilen değişkenler-faktörler üzerinde küme analizi yapmak. Faktör ve küme analizi prosedürlerini tekrar ayrıntılı olarak açıklamayacağız (bu, yukarıda ilgili bölümlerde yapılmıştır). Sadece bu teknikle, sonuç olarak, seçilen faktörlerin (yani değişken gruplarının) değerlendirme seviyelerinde farklılık gösteren üç hedef hava yolcu grubu elde ettiğimizi not ediyoruz: en düşük, ortalama ve en yüksek.

Kümeleme analizinin çok yararlı bir uygulaması, sıklık tablosu gruplarına bölünmesidir. Kuruluşunuzda hangi marka antivirüsler yüklü? sorusuna doğrusal bir yanıt dağılımımız olduğunu varsayalım. Bu dağıtım hakkında sonuçlar çıkarmak için antivirüs markalarını birkaç gruba (genellikle 2-3) bölmek gerekir. Tüm markaları üç gruba ayırmak için (en popüler markalar, ortalama popülerlik ve popüler olmayan markalar), küme analizini kullanmak en iyisidir, ancak kural olarak araştırmacılar sıklık tablolarının unsurlarını öznel düşüncelere dayanarak gözle ayırır. Bu yaklaşımın aksine kümeleme analizi, yapılan gruplandırmanın bilimsel olarak doğrulanmasını mümkün kılar. Bunu yapmak için her parametrenin değerlerini SPSS'ye girin (bu değerleri yüzde olarak ifade etmeniz önerilir) ve ardından bu veriler üzerinde bir küme analizi yapın. Gerekli sayıda grup (bizim durumumuzda 3) için küme çözümünü yeni bir değişken olarak kaydederek istatistiksel olarak geçerli bir gruplandırma elde ederiz.

Bu bölümün son kısmını, değişkenleri sınıflandırmak için küme analizinin kullanımını açıklamaya ve sonuçlarını Bölüm 5.2.1'de gerçekleştirilen faktör analizi sonuçlarıyla karşılaştırmaya ayıracağız. Bunu yapmak için yine X havayolunun hava taşımacılığı pazarındaki mevcut konumunu değerlendirme probleminin durumunu kullanacağız. Küme analizi yürütme metodolojisi, yukarıda açıklananı neredeyse tamamen tekrar eder (katılımcılar bölümlere ayrıldığında).

Dolayısıyla, orijinal veri dosyasında, X havayolunun mevcut rekabet durumunun çeşitli yönlerine yanıt verenlerin tutumunu tanımlayan 24 değişkenimiz var. Ana Hiyerarşik Kümeleme Analizi iletişim kutusunu açın ve Değişkene 24 değişkeni (ql-q24) yerleştirin. (s) alanı, şek. 5.55. Küme alanında, değişkenleri sınıflandırdığınızı belirtin (Değişkenler seçeneğini işaretleyin). Kaydet düğmesinin kullanılamaz hale geldiğini göreceksiniz -- faktör analizinden farklı olarak, küme analizi tüm yanıtlayanlar için faktör derecelendirmelerini kaydedemez. Plots seçeneğini devre dışı bırakarak çizimi devre dışı bırakın. İlk adımda başka bir seçeneğe ihtiyacınız yoktur, bu nedenle küme analizi prosedürünü başlatmak için Tamam düğmesini tıklamanız yeterlidir.

Yukarıda açıklanan yöntemi kullanarak optimal küme sayısını belirlediğimize göre, SPSS Görüntüleyici penceresinde Aglomerasyon Takvimi tablosu belirdi (Şekil 5.56). Aglomerasyon katsayısındaki ilk sıçrama, 20. adımda gözlemlenir (18834.000'den 21980.967'ye). 24'e eşit olan analiz edilen değişkenlerin toplam sayısına dayanarak, optimal küme sayısını hesaplamak mümkündür: 24 - 20 = 4.

Pirinç. 5.55.


Pirinç. 5.56.

Değişkenleri sınıflandırırken sadece bir değişkenden oluşan bir küme pratik ve istatistiksel olarak anlamlıdır. Bu nedenle, matematiksel yöntemle kabul edilebilir sayıda küme elde ettiğimiz için başka kontrollere gerek yoktur. Bunun yerine, ana küme analizi iletişim kutusunu yeniden açın (önceki adımda kullanılan tüm veriler korunur) ve sınıflandırma tablosunu görüntülemek için İstatistikler düğmesini tıklayın. 24 değişkenin bölünmesi gereken küme sayısını belirtmeniz gereken aynı adı taşıyan bir iletişim kutusu göreceksiniz (Şekil 5.57). Bunu yapmak için Tek çözüm seçeneğini seçin ve ilgili alanda gerekli küme sayısını belirtin: 4. Şimdi Devam düğmesine tıklayarak İstatistikler iletişim kutusunu kapatın ve prosedürü ana küme analizi penceresinden çalıştırın.

Sonuç olarak, SPSS Viewer penceresinde, analiz edilen değişkenleri dört kümeye dağıtan Küme Üyeliği tablosu görünecektir (Şekil 5.58).

Pirinç. 5.58.

Bu tabloya göre, incelenen her değişken aşağıdaki gibi belirli bir kümeye atanabilir.

küme 1

ql. Airline X, mükemmel yolcu hizmeti konusunda bir üne sahiptir.

q2. Havayolu X, dünyanın en iyi havayolları ile rekabet edebilir.

q3. Airline X'in küresel havacılıkta umut verici bir geleceği olduğuna inanıyorum.

q5. Airline X için çalışmaktan gurur duyuyorum.

q9. Dünya çapında bir havayolu olduğumuzu iddia edebilmemiz için daha gidecek çok yolumuz var.

qlO. Havayolu X, yolcuları gerçekten önemsiyor.

ql3. Airline X'in kendisini görsel olarak halka sunmasına bayılıyorum (renkler ve marka açısından).

ql4. Havayolu X, Rusya'nın yüzüdür.

ql6. Airline X hizmeti, her yerde tutarlı ve tanınabilir

ql8. Havayolu X'in tam potansiyelinden yararlanmak için değişmesi gerekiyor.

ql9. Airline X'in kendisini görsel olarak daha modern bir şekilde sunması gerektiğini düşünüyorum.

q20. X havayolundaki değişiklikler olumlu bir şey olacak. q21. Airline X verimli bir havayoludur.

q22. X havayolunun imajının yabancı yolcular açısından geliştiğini görmek isterim.

q23. Havayolu X, çoğu insanın düşündüğünden daha iyidir.

q24. Dünyanın her yerindeki insanların bizim bir Rus havayolu olduğumuzu bilmeleri önemlidir.

Küme 2

q4. Airline X'in gelecekteki stratejisinin ne olacağını biliyorum.

q6. Havayolu X, departmanlar arasında iyi bir iletişime sahiptir.

q7. Havayolunun her çalışanı, başarısını sağlamak için her türlü çabayı gösterir.

q8. Şimdi Airline X hızla gelişiyor.

qll. Havayolu çalışanları arasında yüksek derecede iş tatmini vardır.

ql2. Üst düzey yöneticilerin bir havayolunun başarısı için ellerinden gelenin en iyisini yaptıklarına inanıyorum.

küme 3

ql5. Diğer havayollarına kıyasla “dün” gibi görünüyoruz.

küme 4

ql7. X havayolunun değişmesini istemem.

Faktöriyel (bölüm 5.2.1) ve küme analizlerinin sonuçlarını karşılaştırırsanız, bunların önemli ölçüde farklı olduğunu göreceksiniz. Küme analizi, faktör analizine kıyasla yalnızca değişken kümeleme için önemli ölçüde daha az fırsat (örneğin, grup derecelendirmelerinin kaydedilememesi) sağlamakla kalmaz, aynı zamanda çok daha az görsel sonuç da üretir. Bizim durumumuzda, eğer 2, 3 ve 4 kümeleri hala mantıksal yoruma1 uygunsa, o zaman küme 1, anlam bakımından tamamen farklı ifadeler içerir. Bu durumda, küme 1'i olduğu gibi tanımlamayı deneyebilir veya istatistiksel modeli farklı sayıda küme ile yeniden oluşturabilirsiniz. İkinci durumda, mantıksal olarak tanımlanabilecek en uygun küme sayısını bulmak için, İstatistikler iletişim kutusundaki Çözüm aralığı parametresini (bkz. Şekil 5.57), ilgili alanlarda minimum ve maksimum küme sayısını belirterek kullanabilirsiniz ( bizim durumumuzda sırasıyla 4 ve 6). Böyle bir durumda SPSS, her küme sayısı için Küme Üyeliği tablosunu yeniden oluşturacaktır. Bu durumda analistin görevi, tüm kümelerin açık bir şekilde yorumlanacağı bir sınıflandırma modeli seçmeye çalışmaktır. Kümeleme değişkenleri için küme analizi prosedürünün yeteneklerini göstermek için küme modelini yeniden oluşturmayacağız, ancak kendimizi yukarıda söylenenlerle sınırlayacağız.

Faktör analizine kıyasla küme analizinin görünürdeki basitliğine rağmen, neredeyse tüm pazarlama araştırması durumlarında faktör analizinin küme analizinden daha hızlı ve daha verimli olduğu belirtilmelidir. Bu nedenle, değişkenlerin sınıflandırılması (indirgenmesi) için faktör analizinin kullanılmasını şiddetle tavsiye ediyoruz ve yanıtlayanların sınıflandırılması için küme analizi kullanımını bırakıyoruz.

Sınıflandırma analizi, hazırlıksız bir kullanıcı açısından belki de en karmaşık istatistiksel araçlardan biridir. Bunun nedeni pazarlama şirketlerinde yaygınlığının çok düşük olmasıdır. Aynı zamanda, bu özel istatistiksel yöntemler grubu, pazarlama araştırması alanındaki uygulayıcılar için en faydalı olanlardan biridir.

küme analizi nispeten yakın zamanda ortaya çıktı - 1939'da. Bilim adamı K. Tryon tarafından önerildi. Kelimenin tam anlamıyla, İngilizce "küme" den çevrilen "küme" terimi, bir fırça, pıhtı, demet, grup anlamına gelir.

Kümeleme analizinin özellikle hızlı gelişimi, geçen yüzyılın 60'larında gerçekleşti. Bunun önkoşulları, yüksek hızlı bilgisayarların ortaya çıkması ve sınıflandırmaların temel bir bilimsel araştırma yöntemi olarak tanınmasıydı.

Kümeleme analizi, örnek nesneler hakkında bilgi içeren verilerin toplanmasını ve bunların nispeten homojen, benzer gruplara sıralanmasını içeren çok değişkenli istatistiksel araştırma yöntemidir.

Bu nedenle, kümeleme analizinin özü, çok sayıda hesaplama prosedürü kullanarak araştırma nesnelerinin sınıflandırılmasının uygulanmasında yatmaktadır. Sonuç olarak, "kümeler" veya çok benzer nesne grupları oluşur. Diğer yöntemlerden farklı olarak, bu tür bir analiz, nesneleri bir özniteliğe göre değil, aynı anda birkaçına göre sınıflandırmayı mümkün kılar. Bunu yapmak için, tüm sınıflandırma parametrelerinde belirli bir benzerlik derecesini karakterize eden ilgili göstergeler tanıtılır.

Küme analizinin amacı, birbirine benzer nesne gruplarının - kümelerin oluşumunda ifade edilen mevcut yapıları araştırmaktır. Aynı zamanda, eylemi, incelenen nesnelere yapının sokulmasında yatmaktadır. Bu, görsel inceleme veya uzmanlar tarafından kolayca bulunamayan verilerdeki kalıpları ortaya çıkarmak için kümeleme tekniklerine ihtiyaç duyulduğu anlamına gelir.

Kümeleme analizinin ana görevleri şunlardır:

İncelenen nesnelerin bir tipolojisinin veya sınıflandırmasının geliştirilmesi;

Nesneleri gruplamak için kabul edilebilir kavramsal şemaların araştırılması ve tanımlanması;

Veri madenciliği sonuçlarına dayalı hipotezler üretmek;

Belirli bir şekilde tanımlanmış türlerin (grupların) mevcut verilerde yer alıp almadığının test edilmesi.

Küme analizi aşağıdaki sıralı adımları gerektirir:

1) kümeleme için örnekleme nesneleri;

2) seçilen nesnelerin değerlendirileceği özellik setinin belirlenmesi;

3) nesnelerin benzerlik derecesinin değerlendirilmesi;

4) benzer nesne grupları oluşturmak için küme analizi uygulaması;

5) küme çözümünün sonuçlarının güvenilirliğinin kontrol edilmesi.

Bu adımların her biri, analizin pratik uygulamasında önemli bir rol oynar.

Kümeleme analizinde nesnelerin () değerlendirilmesine dayanan öznitelik setinin belirlenmesi çalışmanın en önemli görevlerinden biridir. Bu adımın amacı, benzerlik kavramını en iyi yansıtan bir dizi değişken özelliği belirlemek olmalıdır. Bu işaretler, sınıflandırmanın altında yatan teorik hükümler ve çalışmanın amacı dikkate alınarak seçilir.

Kümeleme analizi nesnelerinin benzerlik ölçüsü belirlenirken, dört tip katsayı kullanılır: korelasyon katsayıları, uzaklık göstergeleri, ilişkisellik ve olasılık katsayıları, benzerlik katsayıları. Bu göstergelerin her birinin, önce dikkate alınması gereken kendi avantajları ve dezavantajları vardır. Uygulamada, korelasyon ve uzaklık katsayıları en yaygın olarak sosyal ve ekonomik bilimlerde kullanılmaktadır.

Girdi veri setinin analizi sonucunda, bu gruplar içindeki nesneler bazı kriterlere göre birbirine benzer ve farklı gruplardaki nesneler birbirinden farklı olacak şekilde homojen gruplar oluşturulur.

Kümeleme, hiyerarşik veya yinelemeli prosedürler dahil olmak üzere iki ana yolla yapılabilir.

hiyerarşik prosedürler- Açıkça belirlenmiş bir hiyerarşiye göre birbirine bağlı, farklı düzeylerde kümeler oluşturmak için tutarlı eylemler. Çoğu zaman hiyerarşik prosedürler

toplayıcı (birleştirici) eylemlerle gerçekleştirilir. Aşağıdaki işlemleri içerirler:

Nesnelerin benzerlik matrisinin oluşumu ile benzer nesnelerin tutarlı kombinasyonu;

Nesnelerin kümeler halinde sıralı ilişkisini yansıtan bir dendrogramın (ağaç diyagramı) oluşturulması;

Analizin ilk aşamasında çalışılan popülasyona göre bireysel kümelerin oluşturulması ve analizin son aşamasında tüm nesnelerin büyük bir grup halinde birleştirilmesi.

Yinelemeli prosedürler, hiyerarşik olarak birbirine bağlı olmayan tek seviyeli (aynı sıra) kümelerin birincil verilerinin oluşturulmasından oluşur.

Kırk yıldan fazla bir süredir, yinelemeli prosedürleri gerçekleştirmek için en yaygın yöntemlerden biri k-ortalamalar yöntemi olmuştur (1967'de J. McQueen tarafından geliştirilmiştir). Uygulaması aşağıdaki adımları gerektirir:

Çalışılan popülasyonun ilk verilerinin belirli sayıda kümeye ayrılması

Seçilen kümelerin çok boyutlu ortalamalarının (ağırlık merkezleri) hesaplanması

Kümelerin belirli çekim merkezleri kümesinin her biriminin Öklid mesafesinin hesaplanması ve mesafe metriğine dayalı bir mesafe matrisinin oluşturulması. Öklid mesafesi (basit ve ağırlıklı), Manhattan, Chebyshev, Minkowski, Mahalanobis ve benzerleri gibi çeşitli mesafe ölçümleri kullanılır;

Yeni çekim merkezlerinin ve yeni kümelerin belirlenmesi.

En ünlü ve yaygın olarak kullanılan yöntemler

küme oluşumu şunlardır:

Tek bağlantı;

Tam bağlantı;

Orta bağlantı;

Ward'ın yöntemi.

Tek bağlantı yöntemi (yakın komşu yöntemi), bir popülasyon biriminin, bu kümenin en az bir temsilcisine yakınsa (aynı benzerlik düzeyinde) bir kümeye katılmayı içerir.

Tam bağlantı yöntemi (uzak komşu) belirli bir düzeyde nesne benzerliği gerektirir (sınır düzeyinden daha az değil), diğerleriyle birlikte bir kümeye dahil edilmesi gerekir.

Ortalama bağlantı yöntemi, kümeye dahil edilecek aday ile mevcut kümenin temsilcileri arasındaki ortalama mesafenin kullanılmasına dayanır.

Ward'ın yöntemine göre, kare sapmaların grup içi toplamında minimum bir artış olması durumunda nesneler kümelere eklenir. Bu nedenle, bir hiper küre şeklinde olan yaklaşık olarak aynı boyutta kümeler oluşur.

Küme analizi, stokastik ilişkileri incelemenin diğer yöntemleri gibi, çok sayıda karmaşık hesaplama gerektirir, modern kullanarak yürütmek daha iyidir. bilgi sistemi Statistica 6.0 yazılım ürününün kullanılması dahil.

Araştırmacılar, örneğin BDT ülkelerinin (A. Miroshnichenko) nüfusunun refah seviyesini incelerken, çeşitli çalışmalarda küme analizini kullanır. İlk olarak, bunun için vatandaşların yaşam standardını karakterize eden 16 istatistiksel ana sosyo-ekonomik gösterge seçildi. çeşitli ülkeler BDT:

1) Kişi başına GSYİH, ABD Doları AMERİKA BİRLEŞİK DEVLETLERİ;

2) ortalama aylık nominal ücret, Rus. ovmak.;

3) ortalama aylık emekli maaşı, Rus. ovmak.;

6) hanehalklarının tüketici harcamaları içinde gıda ürünleri alımına yönelik harcamaların payı, yüzde;

7) kişi başına yıllık ortalama et ve et ürünleri tüketimi, kg;

8) Aylık ortalama nakit gelir miktarına (kişi başı) satın alınabilecek buğday ekmeği miktarı, kg;

9) toplam doğurganlık hızı (1000 nüfus başına);

10) bebek ölüm hızı (1000 doğumda bir yaşın altındaki çocuklar ölüyor)

11) ekonomik olarak aktif nüfusun yüzdesi olarak istihdam edilenlerin sayısı;

12) Nüfusa ortalama (kişi başı), m2 toplam alan ile konut sağlanması;

13) malign neoplazmalı hasta sayısı (100.000 nüfus başına), kişiler;

14) kayıtlı suç sayısı (100.000 nüfus başına), birimler;

15) sabit kirlilik kaynakları tarafından atmosfere zararlı maddelerin emisyonu (kişi başına), kg;

16) yıllık ortalama müze ziyareti (1000 nüfus başına), birimler. (Tablo 12.7).

Krater analizi, karşılaştırılabilir ve tek yönlü göstergeler temelinde yapılır. Bu nedenle, girdi matrisinin göstergeleri önce standartlaştırılmalıdır. Heterojen popülasyonlar için en yaygın yöntemlerden biri (özellikle örneğimizde), göstergelerin sapma oranı - a'nın standardizasyon birimi q ile standardizasyonudur. Bu durumda, standardizasyon birimi gerçek varyasyon aralığı olacaktır.

Aynı zamanda ekonomistlerin bilimsel çalışmalarında da görüldüğü gibi AM Erin ve S.S. Vashchaev, göstergeler için uyarıcılar, göstergeler için uyarıcılar için alınır. Buna dayanarak, göstergelerin standartlaştırılmış değerleri aşağıdaki formüller kullanılarak hesaplanır:

göstergeler için uyarıcılar:;

İçin göstergeler-destimülatörler:.

nüfusun y'inci birimi için i-ro göstergesinin standartlaştırılmış değeri nerede;

için i-inci göstergesinin giriş değeri j. birim agregalar.

Ortaya çıkan standartlaştırılmış girdi verileri Tablo 12.8'de sunulmuştur.

Azerbaycan

Belarus

Kazakistan

Kırgızistan

Tacikistan

Tablo 12.8. Standartlaştırılmış Giriş Matrisi

Azerbaycan

Belarus

Kazakistan

Kırgızistan

Tacikistan

Kümeleme analizindeki bir sonraki adım, her şeyden önce bir mesafe metriği seçimini içeren bir mesafe matrisinin oluşturulması olmalıdır. Pratikte çeşitli uzaklık ölçüleri kullanılır: Öklid, ağırlıklı Öklid, Manhattan, Chebyshev, Minkowski, Mahalanobis D 2, vb. Bu durumda, BDT ülkelerinin gruplara dağılımı Manhattan mesafesi kullanılarak yapılabilir. Formüle göre hesaplanır

,

i-th'in standartlaştırılmış değeri nerede ve gösterge j-th Ve k'inci birimler agregalar.

Seçilen mesafe ölçüsüne dayanarak, BDT ülkeleri arasında simetrik bir mesafe matrisi oluşturmak mümkündür (Tablo 12.9).

BDT ülkeleri

Azerbaycan

Belarus

Kazakistan

Kırgızistan

Tacikistan

Azerbaycan

Belarus

Kazakistan

Kırgızistan

Tacikistan

Analizin bir sonraki aşaması, BDT ülkelerini kümeler halinde birleştirmek için bir yöntemin seçimidir. Daha önce belirtildiği gibi, küme oluşturmanın en yaygın yöntemleri şunlardır:

Tek bağlantı;

Tam bağlantı;

Orta bağlantı;

Ward'ın yöntemi.

Kümeler içindeki grup içi varyansı en aza indirmemize izin veren Ward yöntemini kullanalım. Bu yönteme göre, nesnelerin kümelere birleştirilmesi, grup içi sapmaların karelerinin toplamında minimum bir artışla gerçekleştirilir. Bu, bir hiper küre şeklinde şekillendirilmiş, yaklaşık olarak aynı boyutta kümelerin oluşumuna katkıda bulunur. Küme analizi sonuçlarının dendrogramı Şekil 12.5'te gösterilmektedir.

Pirinç. 12.5. Nüfusun yaşam standardı açısından BDT ülkelerinin küme analizi sonuçlarının dendrogramı

Şekilden de anlaşılacağı gibi, dendrogramın dikey ekseni BDT ülkelerini, yatay eksen ise birleşim mesafesini yansıtmaktadır.

Optimum küme sayısını belirlemek için, Ukrayna'nın bölgelerinin kümeler halinde birleştirilmesi, dikey eksende mesafelerin çizilmesi ve yatay eksende birleştirme adımının bir listesinin bir grafiği oluşturulmalıdır (Şekil 12.6).

Pirinç. 12.6. BDT ülkelerinin kümeler halinde birleştirilmesi listesinin grafiği

Optimal gördüğümüz gibi, yerleşik gereksinimler optimallik, BDT ülkelerinin nüfusun yaşam standardı açısından üç kümeye bölünmesidir. Optimal küme sayısının, gözlem sayısı (örneğimizde 9) ile birleştirme mesafesinin aniden arttığı adım sayısı (örneğimizde 6) arasındaki farka eşit olarak kabul edildiğine dikkat edin.

Böylece, BDT ülkeleri üç kümeye ayrılmıştır. İlk küme Azerbaycan ve Tacikistan'ı, diğeri - Beyaz Rusya, Ukrayna, Rusya ve Kazakistan'ı ve üçüncüsü - Ermenistan, Moldova ve Kırgızistan'ı içeriyordu.

K-ortalama yöntemi kullanılarak, üç kümenin her biri için göstergelerin ortalama değerleri hesaplandı (Şekil 12.7).

Pirinç. 12.7. Her küme için göstergelerin ortalama değerleri

Şekilde gösterildiği gibi. 12.7, ilk küme, sekiz göstergenin ortalama değerlerinin diğer kümelere göre daha az olduğu ülkeleri içerir.

Bu nedenle, birinci kümeye ait olan Azerbaycan ve Tacikistan, kişi başına düşen GSYİH'ya sahip olup, aylık ortalama ücretler(nominal), emekli maaşları, et ve et ürünleri tüketimi, konut. Ancak, bu ülkelerde diğer ortalama göstergeler daha yüksektir, özellikle: sabit sermaye yatırım endeksi, tüketici fiyat endeksi, doğum oranı.

İkinci kümeye atanan ülkeler, yaşam standardının ekonomik bileşeninin yüksek parametreleriyle, ancak ne yazık ki, düşük doğum oranları, yüksek habis neoplazma insidansı, suç, sabit kaynaklardan atmosfere büyük miktarda zararlı madde emisyonu ile işaretlenmiştir. ilgili göstergeler tarafından onaylanan kirlilik.

Üçüncü kümenin ülkeleri düşük göstergelerle karakterize edilir: sabit varlıklara yatırım endeksi, kamu sektöründeki istihdam seviyesi, düşük yatırım çekiciliğini ve önemli işsizliği gösteren kayıtlı suçlar.

Bu nedenle, bilim adamlarına göre küme analizi, büyük miktarda çok yönlü bilgiyi düzenli, kompakt bir forma dönüştürme yeteneği nedeniyle analitik araştırma yürütmede büyük önem taşımaktadır. Bu, analiz sonuçlarının görünürlük, netlik ve algı düzeyini artırmaya yardımcı olur ve ayrıca tahmin için bir temel oluşturur.

küme analizi

Çoğu araştırmacı, ilk kez "küme analizi" teriminin (İng. küme- demet, pıhtı, demet) matematikçi R. Trion tarafından önerildi. Daha sonra, artık "küme analizi" terimiyle eşanlamlı olarak kabul edilen bir dizi terim ortaya çıktı: otomatik sınıflandırma; botryoloji.

Küme analizi, bir nesne örneği hakkında bilgi içeren verileri toplayan ve daha sonra nesneleri nispeten homojen gruplara (kümeler) (Q-kümeleme veya Q-tekniği, uygun küme analizi) göre düzenleyen çok değişkenli bir istatistiksel prosedürdür. Küme - ortak bir özellik ile karakterize edilen bir grup eleman, küme analizinin temel amacı, örnekte benzer nesne gruplarını bulmaktır. Kümeleme analizinin uygulama alanları çok geniştir: arkeoloji, tıp, psikoloji, kimya, biyoloji, kamu Yönetimi, filoloji, antropoloji, pazarlama, sosyoloji ve diğer disiplinler. Bununla birlikte, uygulamanın evrenselliği, kümeleme analizini açık bir şekilde kullanmayı ve tutarlı bir şekilde yorumlamayı zorlaştıran çok sayıda uyumsuz terim, yöntem ve yaklaşımın ortaya çıkmasına neden olmuştur. Orlov A. I., aşağıdaki gibi ayırt etmeyi önerir:

Görevler ve koşullar

Küme analizi aşağıdakileri gerçekleştirir ana görevler:

  • Bir tipoloji veya sınıflandırmanın geliştirilmesi.
  • Nesneleri gruplamak için faydalı kavramsal şemaları keşfetmek.
  • Veri keşfine dayalı hipotezlerin üretilmesi.
  • Bir şekilde tanımlanan tiplerin (grupların) mevcut verilerde gerçekten mevcut olup olmadığını belirlemek için hipotez testi veya araştırması.

Çalışmanın konusu ne olursa olsun, küme analizinin kullanımı şunları içerir: sonraki adımlar:

  • Kümeleme için örnekleme. Yalnızca nicel verileri kümelemenin mantıklı olduğu anlaşılmaktadır.
  • Örnekteki nesnelerin değerlendirileceği bir dizi değişkenin, yani bir özellik uzayının tanımı.
  • Nesneler arasındaki bir veya başka bir benzerlik (veya fark) ölçüsünün değerlerinin hesaplanması.
  • Benzer nesne grupları oluşturmak için küme analizi yönteminin uygulanması.
  • Küme çözümünün sonuçlarının doğrulanması.

Küme analizi aşağıdakileri sunar Veri gereksinimleri:

  1. göstergeler birbiriyle ilişkili olmamalıdır;
  2. göstergeler ölçüm teorisiyle çelişmemelidir;
  3. göstergelerin dağılımı normale yakın olmalıdır;
  4. göstergeler, değerleri üzerinde rastgele faktörlerin etkisinin olmaması anlamına gelen "istikrar" gereksinimini karşılamalıdır;
  5. örnek homojen olmalı, "aykırı değerler" içermemelidir.

Veriler için iki temel gereksinimin tanımını bulabilirsiniz - tekdüzelik ve eksiksizlik:

Homojenlik, bir tabloda temsil edilen tüm varlıkların aynı nitelikte olmasını gerektirir. Tamlık şartı, setlerin i Ve J incelenen fenomenin tezahürlerinin tam bir tanımını sundu. olduğu bir tabloyu ele alırsak i bir koleksiyondur ve J- bu popülasyonu tanımlayan değişkenler seti, daha sonra incelenen popülasyondan temsili bir örnek ve özellikler sistemi olmalıdır. J bireylerin tatmin edici bir vektör temsilini vermelidir i bir araştırmacının bakış açısından.

Küme analizinden önce faktör analizi yapılıyorsa, numunenin “onarılmasına” gerek yoktur - belirtilen gereksinimler faktör modelleme prosedürünün kendisi tarafından otomatik olarak gerçekleştirilir (başka bir avantaj daha vardır - z-standartlaştırma olmadan Olumsuz sonuçlarörnekleme için; doğrudan küme analizi için yapılırsa, grupların ayrılmasının netliğinde bir azalmaya yol açabilir). Aksi takdirde, numune ayarlanmalıdır.

Kümeleme problemlerinin tipolojisi

Giriş Tipleri

Modern bilimde, girdi verilerini işlemek için çeşitli algoritmalar kullanılır. Nesneleri özelliklere göre karşılaştırarak yapılan analize (biyolojik bilimlerde en yaygın olanı) denir. Q- analiz türü ve nesne bazında özellik karşılaştırması durumunda - r- analiz türü. Hibrit analiz türlerini kullanma girişimleri vardır (örneğin, RQ analizi), ancak bu metodoloji henüz uygun şekilde geliştirilmemiştir.

Kümelemenin hedefleri

  • Küme yapısını tanımlayarak verileri anlama. Örneği benzer nesne gruplarına bölmek, her kümeye kendi analiz yöntemini uygulayarak ("böl ve yönet" stratejisi) daha fazla veri işlemeyi ve karar vermeyi basitleştirmeyi mümkün kılar.
  • Veri sıkıştırma. İlk örnek aşırı büyükse, her kümeden en tipik temsilcilerden birini bırakarak azaltılabilir.
  • yenilik tespiti. yenilik algılama). Herhangi bir kümeye eklenemeyen atipik nesneler seçilir.

İlk durumda, küme sayısını küçültmeye çalışırlar. İkinci durumda, her küme içindeki nesnelerin yüksek derecede benzerliğini sağlamak daha önemlidir ve herhangi bir sayıda küme olabilir. Üçüncü durumda, kümelerden herhangi birine uymayan bireysel nesneler en büyük ilgiyi çeker.

Tüm bu durumlarda, hiyerarşik kümeleme, büyük kümeler daha küçük kümelere bölündüğünde, bunlar da daha küçüklere bölündüğünde vb. uygulanabilir. Bu tür görevlere taksonomi görevleri denir. Taksonominin sonucu, ağaç benzeri bir hiyerarşik yapıdır. Ek olarak, her nesne, ait olduğu tüm kümelerin, genellikle büyükten küçüğe bir numaralandırılmasıyla karakterize edilir.

kümeleme yöntemleri

Kümeleme yöntemlerinin genel kabul görmüş bir sınıflandırması yoktur, ancak V. S. Berikov ve G. S. Lbov'un sağlam bir girişimi not edilebilir. Kümeleme yöntemlerinin çeşitli sınıflandırmalarını genelleştirirsek, bir dizi grubu ayırt edebiliriz (bazı yöntemler aynı anda birkaç gruba atfedilebilir ve bu nedenle bu tipleştirmenin kümeleme yöntemlerinin gerçek sınıflandırmasına bir tür yaklaşım olarak düşünülmesi önerilir):

  1. olasılıksal yaklaşım. İncelenen her nesnenin k sınıfından birine ait olduğu varsayılır. Bazı yazarlar (örneğin, A. I. Orlov), bu grubun hiçbir şekilde kümelenmeye ait olmadığına inanmakta ve buna "ayrımcılık" adı altında, yani nesneleri bilinen gruplardan birine atama seçimi (eğitim örnekleri) altında karşı çıkmaktadır.
  2. Yapay zeka sistemlerine dayalı yaklaşımlar. Çok koşullu bir grup, çünkü birçok AI yöntemi var ve metodik olarak çok farklılar.
  3. mantıksal yaklaşım. Bir dendrogramın oluşturulması, bir karar ağacı kullanılarak gerçekleştirilir.
  4. Grafik-teorik yaklaşım.
    • Grafik kümeleme algoritmaları
  5. hiyerarşik yaklaşım. İç içe grupların (farklı sıralardaki kümeler) varlığı varsayılır. Algoritmalar, sırayla, aglomeratif (birleştirici) ve bölücü (ayıran) olarak ayrılır. Özellik sayısına göre, monotetik ve politetik sınıflandırma yöntemleri bazen ayırt edilir.
    • Hiyerarşik bölünmüş kümeleme veya sınıflandırma. Kümeleme problemleri nicel taksonomide ele alınmaktadır.
  6. Öbür metodlar. Önceki gruplara dahil değildir.
    • İstatistiksel kümeleme algoritmaları
    • Kümeleyiciler topluluğu
    • KRAB ailesinin algoritmaları
    • Eleme yöntemine dayalı algoritma
    • DBSCAN vb.

Yaklaşımlar 4 ve 5 bazen daha resmi bir yakınlık kavramına sahip olan yapısal veya geometrik yaklaşım adı altında birleştirilir. Listelenen yöntemler arasındaki önemli farklılıklara rağmen, hepsi orijinaline güveniyor " kompaktlık hipotezi»: nesne uzayında, tüm yakın nesneler aynı kümeye ait olmalı ve sırasıyla tüm farklı nesneler farklı kümelerde olmalıdır.

Kümelenme Sorununun Resmi Açıklaması

Bir nesneler kümesi olsun, kümelerin bir dizi numarası (adlar, etiketler) olsun. Nesneler arasındaki mesafe fonksiyonu verilmiştir. Sonlu bir eğitim nesneleri kümesi vardır. Örneği örtüşmeyen alt kümelere bölmek gerekir. kümeler, böylece her küme metrik olarak yakın nesnelerden oluşur ve farklı kümelerdeki nesneler önemli ölçüde farklılık gösterir. Bu durumda, her nesneye bir küme numarası atanır.

kümeleme algoritması herhangi bir nesneyi bir küme numarasıyla ilişkilendiren bir işlevdir. Bazı durumlarda küme önceden bilinir, ancak daha sık olarak görev, bir veya başka bir bakış açısından en uygun küme sayısını belirlemektir. Kalite kriterleri kümeleme.

Kümeleme (denetimsiz öğrenme), orijinal nesnelerin etiketlerinin başlangıçta ayarlanmaması ve hatta kümenin kendisinin bilinmemesi nedeniyle sınıflandırmadan (denetimli öğrenme) farklıdır.

Kümeleme sorununun çözümü temelde belirsizdir ve bunun birkaç nedeni vardır (birkaç yazara göre):

  • kümeleme kalitesi için benzersiz bir en iyi kriter yoktur. Açıkça tanımlanmış bir kriteri olmayan, ancak oldukça makul bir kümeleme "yapılandırma" gerçekleştiren bir dizi algoritmanın yanı sıra bir dizi buluşsal kriter bilinmektedir. Hepsi farklı sonuçlar verebilir. Bu nedenle, kümelemenin kalitesini belirlemek için küme seçiminin anlamlılığını değerlendirebilecek, konu alanında bir uzmana ihtiyaç vardır.
  • kümelerin sayısı genellikle önceden bilinmez ve bazı öznel kriterlere göre belirlenir. Bu yalnızca ayrım yöntemleri için geçerlidir, çünkü kümeleme yöntemlerinde kümeler, yakınlık ölçümlerine dayalı resmileştirilmiş bir yaklaşım kullanılarak seçilir.
  • kümeleme sonucu, seçimi kural olarak öznel olan ve bir uzman tarafından belirlenen metriğe önemli ölçüde bağlıdır. Ancak, çeşitli görevler için yakınlık ölçütlerini seçmek için bir takım tavsiyeler olduğunu belirtmekte fayda var.

Başvuru

biyolojide

Biyolojide, kümelemenin çok çeşitli alanlarda birçok uygulaması vardır. Örneğin, biyoinformatikte, bazen yüzlerce hatta binlerce elementten oluşan, etkileşimli genlerin karmaşık ağlarını analiz etmek için kullanılır. Küme analizi, incelenen sistemin alt ağlarını, darboğazlarını, hub'larını ve diğer gizli özelliklerini belirlemenize olanak tanır; bu, sonuçta her bir genin incelenen olgunun oluşumuna katkısını bulmanızı sağlar.

Ekoloji alanında, mekansal olarak homojen organizma gruplarını, toplulukları vb. tanımlamak için yaygın olarak kullanılır. Daha az yaygın olarak, toplulukları zaman içinde incelemek için küme analizi yöntemleri kullanılır. Toplulukların yapısının heterojenliği, önemsiz olmayan küme analizi yöntemlerinin ortaya çıkmasına yol açar (örneğin, Czekanowski yöntemi).

Genel olarak, tarihsel olarak benzerlik ölçütlerinin, farklılık (mesafe) ölçülerinden ziyade biyolojide yakınlık ölçütleri olarak daha sık kullanıldığını belirtmekte fayda var.

sosyolojide

Sonuçları analiz ederken sosyolojik araştırma Analizin, kümeler içinde minimum varyansın optimize edildiği ve bunun sonucunda yaklaşık olarak eşit büyüklükte kümelerin oluşturulduğu, hiyerarşik bir kümeleme ailesinin yöntemleri, yani Ward yöntemi kullanılarak yapılması önerilir. Ward'ın yöntemi sosyolojik verilerin analizinde en başarılı yöntemdir. Farkın bir ölçüsü olarak, ikinci dereceden Öklid mesafesi daha iyidir, bu da kümelerin kontrastında bir artışa katkıda bulunur. Hiyerarşik küme analizinin ana sonucu, bir dendrogram veya "buz saçağı diyagramı"dır. Bunu yorumlarken, araştırmacılar faktör analizi sonuçlarının yorumlanmasıyla aynı türden bir problemle karşı karşıya kalırlar - kümeleri tanımlamak için açık kriterlerin olmaması. Ana yöntemler olarak iki yöntemin kullanılması önerilir - dendrogramın görsel analizi ve farklı yöntemlerle gerçekleştirilen kümeleme sonuçlarının karşılaştırılması.

Dendrogramın görsel analizi, ağacın "kesilmesini" içerir. optimal seviyeörnek öğelerin benzerlikleri. "Asma dalı" (Oldenderfer M.S. ve Blashfield R.K. terminolojisi), Rescaled Distance Cluster Combine ölçeğinde yaklaşık 5'te "kesilmeli" ve böylece %80 benzerlik düzeyi elde edilmelidir. Bu etikete göre küme seçimi zorsa (birkaç küçük küme, üzerinde bir büyük kümede birleşir), o zaman başka bir etiket seçebilirsiniz. Bu teknik Oldenderfer ve Blashfield tarafından önerilmiştir.

Şimdi, benimsenen küme çözümünün kararlılığı sorunu ortaya çıkıyor. Aslında, kümelemenin kararlılığını kontrol etmek, güvenilirliğini kontrol etmeye gelir. Burada temel bir kural vardır - kümeleme yöntemleri değiştiğinde sabit bir tipoloji korunur. Hiyerarşik küme analizinin sonuçları, yinelemeli k-ortalamalar küme analizi ile doğrulanabilir. Cevaplayıcı gruplarının karşılaştırılan sınıflandırmaları, %70'den fazla (tesadüflerin 2/3'ünden fazla) bir tesadüf payına sahipse, bir küme kararı verilir.

Başka bir analiz türüne başvurmadan çözümün yeterliliğini kontrol etmek imkansızdır. En azından teorik olarak, bu sorun çözülmedi. Oldenderfer ve Blashfield'ın klasik Küme Analizi, beş ek sağlamlık test yöntemini detaylandırır ve nihayetinde reddeder:

bilgisayar biliminde

  • Arama sonuçlarının kümelenmesi - dosyaları, web sitelerini, diğer nesneleri ararken sonuçların "akıllı" gruplandırılması için kullanılır, kullanıcının hızlı bir şekilde gezinmesine olanak tanır, açıkça daha alakalı olan ve açıkça daha az alakalı olanı hariç tutan bir alt küme seçer - bu da arayüzün kullanılabilirliği, basit bir alaka listesine göre sıralanmış formda çıktıya kıyasla.
    • Clusty - Vivísimo'nun kümeleme arama motoru
    • Nigma - Otomatik sonuç kümelemeli Rus arama motoru
    • Quintura - bir anahtar kelime bulutu şeklinde görsel kümeleme
  • Resim parçalama Resim parçalama) - Kümeleme, dijital bir görüntüyü kenar algılama amacıyla farklı bölgelere bölmek için kullanılabilir. Kenar algılama) veya nesne tanıma.
  • Veri madenciliği veri madenciliği)- Veri Madenciliğinde kümeleme, veri analizinin aşamalarından biri olarak hareket ettiğinde ve eksiksiz bir analitik çözüm oluşturduğunda değerli hale gelir. Bir analistin benzer nesne gruplarını belirlemesi, özelliklerini incelemesi ve her grup için ayrı bir model oluşturması, bir tane oluşturmaktan genellikle daha kolaydır. genel model tüm veriler için. Bu teknik, pazarlamada, müşteri gruplarını, alıcıları, malları vurgulayarak ve her biri için ayrı bir strateji geliştirerek sürekli olarak kullanılır.

Ayrıca bakınız

notlar

Bağlantılar

Rusça
  • www.MachineLearning.ru - makine öğrenimi ve veri madenciliğine adanmış profesyonel wiki kaynağı
İngilizcede
  • KOMPAKT - Kümeleme Değerlendirmesi için Karşılaştırmalı Paket. Ücretsiz bir Matlab paketi, 2006.
  • P. Berkin, Kümeleme Veri Madenciliği Teknikleri Araştırması, Tahakkuk Yazılımı, 2002.
  • Jain, Murty ve Flynn: Veri Kümeleme: Bir İnceleme, ACM Komp. Surv., 1999.
  • hiyerarşik, k-ortalamalar ve bulanık c-ortalamaların başka bir sunumu için bu kümeleme girişine bakın. Ayrıca Gauss'ların karışımı hakkında bir açıklaması var.
  • davut dowe, Karışım Modelleme sayfası- diğer kümeleme ve karışım modeli bağlantıları.
  • kümeleme hakkında bir eğitim
  • Çevrimiçi ders kitabı: Bilgi Teorisi, Çıkarım ve Öğrenme Algoritmaları, David J.C. MacKay, k-ortalama kümeleme, yumuşak k-ortalama kümeleme ve aşağıdakileri içeren türevler hakkında bölümler içerir. E-M algoritması ve E-M algoritmasının varyasyonel görünümü.
  • "Kendi Kendini Organize Eden Gen", rekabetçi öğrenme ve kendi kendini organize eden haritalar yoluyla kümelemeyi açıklayan öğretici.
  • kernlab - Çekirdek tabanlı makine öğrenimi için R paketi (spektral kümeleme uygulamasını içerir)
  • Öğretici - Kümeleme Algoritmalarının tanıtıldığı öğretici (k-ortalamalar, bulanık-c-ortalamalar, hiyerarşik, gaussianların karışımı) + ​​bazı etkileşimli demolar (java uygulamaları)
  • Veri Madenciliği Yazılımı - Veri madenciliği yazılımı sıklıkla kümeleme tekniklerini kullanır.
  • Java Rekabetçi Öğrenme Uygulaması Kümeleme için Denetimsiz Sinir Ağları paketi. Java ile yazılmıştır. Tüm kaynak koduyla tamamlayın.
  • Makine Öğrenimi Yazılımı - Ayrıca çok sayıda kümeleme yazılımı içerir.