Példák objektumok klaszterelemzésére. Klaszterezési feladatok az adatbányászatban. Az üzletek körének klaszterezése

A Random Forest az egyik kedvenc adatbányászati ​​algoritmusom. Először is, hihetetlenül sokoldalú, regressziós és osztályozási problémák megoldására egyaránt használható. Anomáliák keresése és előrejelzők kiválasztása. Másodszor, ez egy olyan algoritmus, amelyet nagyon nehéz helytelenül alkalmazni. Egyszerűen azért, mert más algoritmusokkal ellentétben kevés testreszabható paramétere van. Pedig a lényegét tekintve meglepően egyszerű. Ugyanakkor rendkívül pontos.

Mi az ötlete egy ilyen csodálatos algoritmusnak? Az ötlet egyszerű: tegyük fel, hogy van valami nagyon gyenge algoritmusunk, mondjuk . Ha sok különböző modellt készítünk ezzel a gyenge algoritmussal, és átlagoljuk az előrejelzéseik eredményét, akkor a végeredmény sokkal jobb lesz. Ez az úgynevezett ensemble learning in action. A Random Forest algoritmust ezért "Random Forest"-nek hívják, a kapott adatokhoz számos döntési fát hoz létre, majd az előrejelzéseik eredményét átlagolja. Itt fontos szempont a véletlenszerűség eleme az egyes fák létrehozásában. Hiszen világos, hogy ha sok egyforma fát hozunk létre, akkor az átlagolásuk eredménye egy fa pontossága lesz.

Hogyan működik? Tegyük fel, hogy van néhány bemeneti adatunk. Minden oszlop valamilyen paraméternek, minden sor valamilyen adatelemnek felel meg.

Véletlenszerűen kiválaszthatunk számos oszlopot és sort a teljes adatkészletből, és döntési fát építhetünk belőlük.


2012. május 10. csütörtök

2012. január 12. csütörtök


Ez tulajdonképpen minden. A 17 órás repülés véget ért, Oroszország a tengerentúlon maradt. És egy hangulatos, 2 hálószobás lakás ablakán keresztül San Franciscóban a híres kaliforniai Szilícium-völgy néz ránk. Igen, ez az oka annak, hogy mostanában nem írtam sokat. Költöztünk.

Az egész 2011 áprilisában kezdődött, amikor telefonos interjút készítettem Zyngával. Akkor az egész valamiféle játéknak tűnt, aminek semmi köze a valósághoz, és el sem tudtam képzelni, hogy mihez fog vezetni. 2011 júniusában Zynga Moszkvába érkezett és interjúsorozatot készített, körülbelül 60 telefonos interjún átesett jelöltet vettek figyelembe, közülük körülbelül 15 embert választottak ki (nem tudom a pontos számot, valaki később meggondolta magát, valaki azonnal visszautasította). Az interjú meglepően egyszerűnek bizonyult. Nincsenek programozási feladatok az Ön számára, nincsenek bonyolult kérdések a sraffozások alakjával kapcsolatban, főleg a chat-képességet tesztelték. A tudást pedig véleményem szerint csak felületesen értékelték.

És akkor kezdődött a rigmus. Először megvártuk az eredményeket, aztán az ajánlatot, majd az LCA jóváhagyását, majd a vízumkérelem jóváhagyását, majd az USA-ból érkező dokumentumokat, majd a követségi sort, majd a kiegészítő ellenőrzést, majd a vízumot. Időnként úgy tűnt számomra, hogy készen állok mindent eldobni és gólt szerezni. Időnként kételkedtem, kell-e nekünk ez az Amerika, mert Oroszország sem rossz. Az egész folyamat nagyjából fél évig tartott, végül december közepén megkaptuk a vízumot és elkezdtük az indulásra való felkészülést.

Hétfő volt az első napom az új munkahelyemen. Az irodában minden feltétel adott ahhoz, hogy ne csak dolgozni, hanem élni is tudjon. Reggeli, ebéd és vacsora saját szakácsainktól, egy csomó változatos étel minden sarkában, edzőterem, masszázs és még fodrászat is. Mindez teljesen ingyenes az alkalmazottak számára. Sokan biciklivel jutnak el munkába, és több helyiségben járműveket is tárolnak. Általában még soha nem láttam ehhez hasonlót Oroszországban. Mindennek azonban megvan az ára, azonnal figyelmeztettek minket, hogy sokat kell dolgoznunk. Számomra nem egészen világos, hogy az ő mércéjük szerint mi a "sok".

Remélem azonban, hogy a rengeteg munka ellenére, belátható időn belül sikerül folytatnom a blogírást, és talán mesélek valamit az amerikai életről és a programozói munkáról Amerikában. Várj és láss. Addig is kellemes karácsonyi ünnepeket és boldog új évet kívánok mindenkinek, és hamarosan találkozunk!


Példaként használja ki az osztalékhozamot orosz cégek. Mint alapár, a részvény záróárát vesszük a nyilvántartás zárásának napján. Valamilyen oknál fogva ez az információ nem érhető el a Trojka honlapján, és sokkal érdekesebb, mint az osztalékok abszolút értéke.
Figyelem! A kód végrehajtása hosszú ideig tart, mert minden részvényre vonatkozóan kérést kell intézni a finam szerverekhez, és megtudni az értékét.

eredmény<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0)( try(( idézőjelek<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0)(dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Hasonlóképpen készíthet statisztikákat az elmúlt évekről.

A klaszteranalízis feladatai

A klaszterelemzés a következő fő feladatokat látja el:

  • · Tárgyak csoportosítási sémáinak kutatása;
  • · Hipotézisek kidolgozása kutatási adatok alapján;
  • · Hipotézisek és kutatási adatok érvényesítése;
  • · Csoportok jelenlétének meghatározása az adatokon belül.

A klaszteranalízis szakaszai

Függetlenül a vizsgálat tárgyától, a klaszteranalízis használata a következő lépésekből áll:

  • 1. Mintavétel a klaszterezéshez;
  • 2. A tereptárgyak kiosztása;
  • 3. Az objektumok közötti hasonlóság (távolság) mértékének megválasztása;
  • 4. Klaszterelemzési módszer alkalmazása;
  • 5. A klaszterezési eredmények ellenőrzése.

Két fő adatkövetelmény van:

  • · Homogenitás – az összes klaszteres entitás egységes jellegének garantálása. Azaz minden objektumot hasonló jellemzőkészlettel kell leírni;
  • · Teljesség – az adatok tartalma az egész nómenklatúrájukban elegendő, egy adott probléma racionális vagy optimális megoldásához szükséges.
  • · A minta felosztása hasonló objektumok csoportjaira a klaszterstruktúra megértésének egyszerűsítése érdekében, ami leegyszerűsíti az adatfeldolgozást és a döntéshozatalt, minden klaszterre saját elemzési módszert alkalmazva.
  • · Az adatok mennyiségének csökkentése, minden osztályból egy vagy több legtipikusabb képviselő meghagyása. Az ilyen problémáknál fontosabb az objektumok nagyfokú hasonlóságának biztosítása az egyes klasztereken belül, és bármennyi klaszter lehet.
  • · Atipikus objektumok, anomáliák vagy outlierek kiválasztása a klaszterek újdonságának vagy számának meghatározásához. A legnagyobb érdeklődésre azok az egyedi objektumok tartoznak, amelyek nem férnek bele egyik klaszterbe sem.

Mindezekben az esetekben alkalmazható a hierarchikus klaszterezés, amikor a nagy klasztereket kisebbekre bontják, amelyek viszont még kisebbre, stb. Az ilyen feladatokat taxonómiai feladatoknak nevezzük. A taxonómia eredménye egy faszerű hierarchikus struktúra. Ezenkívül minden objektumot az összes olyan klaszter felsorolása jellemez, amelyekhez tartozik, általában a nagytól a kicsiig.

A statisztikában a klaszterelemzésnek két fő típusa van (mindkettőt képviseli az SPSS): hierarchikus és k-átlag. Az első esetben az automatizált statisztikai eljárás önállóan határozza meg a klaszterek optimális számát és számos egyéb, a klaszterezéshez szükséges paramétert.

elemzés. A második típusú elemzésnek jelentős korlátai vannak a gyakorlati alkalmazhatóságban - ehhez önállóan meg kell határozni az allokált klaszterek pontos számát, és az egyes klaszterek központjainak kezdeti értékeit (centroidok), valamint néhány más statisztikai adatot. A k-közép módszerrel végzett elemzés során ezeket a problémákat úgy oldják meg, hogy előzetesen hierarchikus klaszterelemzést végeznek, majd ennek eredményei alapján a k-közép módszerrel klasztermodellt számítanak ki, amely a legtöbb esetben nemhogy nem egyszerűsít, hanem , éppen ellenkezőleg, megnehezíti a kutató (különösen a felkészületlen) munkáját.

Általánosságban elmondható, hogy tekintettel arra, hogy a hierarchikus klaszterelemzés igen nagy igénybevételt jelent a számítógépes hardver erőforrásai számára, az SPSS-be bevezették a k-means klaszteranalízist, amely sok ezer megfigyelésből (válaszadóból) álló, igen nagy adathalmazokat dolgoz fel olyan feltételek mellett. a számítástechnikai eszközök elégtelen kapacitása1. A marketingkutatásban használt mintanagyság a legtöbb esetben nem haladja meg a négyezer válaszadót. Gyakorlat marketing kutatás megmutatja, hogy a klaszterelemzés első típusa - hierarchikus -, amelyet minden esetben a legrelevánsabb, legegyetemesebb és legpontosabbnak ajánlunk. Ugyanakkor hangsúlyozni kell, hogy a releváns változók kiválasztása fontos a klaszteranalízis során. Ez a megjegyzés nagyon fontos, hiszen több, vagy akár egy irreleváns változó bevonása az elemzésbe a teljes statisztikai eljárás kudarcához vezethet.

A klaszterelemzés elvégzésének módszertanát a marketingkutatás gyakorlatából vett alábbi példa segítségével ismertetjük.

Kiinduló adatok:

A vizsgálat során 745 légiutast kérdeztek meg, akik a 22 orosz és külföldi légitársaság egyikével repültek. A légi utasokat egy ötfokú skálán 1-től (nagyon rossz) 5-ig (kiváló) értékelték a légitársaság földi személyzetének hét szempontját a bejelentkezési folyamat során: udvariasság, professzionalizmus, gyorsaság, segítőkészség, sorkezelés. , megjelenés, munkaszemélyzet általában.

Kívánt:

Szegmentálja a vizsgált légitársaságokat a földi személyzet légi utasok által tapasztalt munkaminőségi szintje szerint.

Tehát van egy adatállományunk, amely hét intervallumváltozóból áll, amelyek a különböző légitársaságok földi személyzetének teljesítményértékelését jelölik (ql3-ql9), egyetlen ötfokozatú skálán bemutatva. Az adatállomány egyetlen q4 változót tartalmaz, amely a válaszadók által kiválasztott légitársaságokat jelöli (összesen 22). Végezzünk klaszteranalízist, és határozzuk meg, melyik célcsoportok megoszthatja a légitársaság adatait.

A hierarchikus klaszterelemzés két szakaszban történik. Az első szakasz eredménye a klaszterek (célszegmensek) száma, amelyekre a vizsgált válaszadói mintát fel kell osztani. A klaszterelemzési eljárás önmagában nem

önállóan meg tudja határozni a klaszterek optimális számát. Csak a kívánt számot tudja javasolni. Mivel a szegmensek optimális számának meghatározása kulcsfontosságú, ezt általában az elemzés egy külön szakaszában oldják meg. A második szakaszban a megfigyelések tényleges klaszterezése történik az elemzés első szakaszában meghatározott klaszterek számának megfelelően. Most nézzük meg sorrendben ezeket a klaszterelemzési lépéseket.

A fürtelemzési eljárás az Elemzés > Osztályozás > Hierarchikus fürt menü segítségével indítható el. A megnyíló párbeszédpanelen az adatfájlban elérhető összes változó bal oldali listájából válassza ki azokat a változókat, amelyek a szegmentálási feltételek. Esetünkben hét van belőlük, és a földi személyzet munkájának paramétereire vonatkozó becsléseket jelölik ql3-ql9 (5.44. ábra). Elvileg a szegmentálási kritériumok megadása elég lesz a klaszterelemzés első szakaszának elvégzéséhez.

Rizs. 5.44.

Az SPSS alapértelmezés szerint a klaszterek kialakulásának eredményeit tartalmazó táblázat mellett, amely alapján meghatározzuk azok optimális számát, egy speciális fordított hisztogram jégcsapot is megjelenít, amely a program készítőinek szándéka szerint , segít meghatározni a klaszterek optimális számát; A diagramok a Plots gombbal jeleníthetők meg (5.45. ábra). Ha azonban meghagyjuk ezt az opciót, akkor még egy viszonylag kis adatfájl feldolgozásával is sok időt töltünk. A Jégcsapon kívül a Plots ablakban egy gyorsabb Dendogram oszlopdiagram is kiválasztható. Ez egy vízszintes sáv, amely a klaszterképződés folyamatát tükrözi. Elméletileg kis számú (akár 50-100) válaszadó esetén ez a diagram valóban segít kiválasztani az optimális megoldást a szükséges klaszterszám tekintetében. A marketingkutatásból származó szinte valamennyi példában azonban a minta mérete meghaladja ezt az értéket. A dendogram teljesen használhatatlanná válik, hiszen viszonylag kis számú megfigyelés mellett is az eredeti adatállomány igen hosszú sorszám-sorozata, amelyet vízszintes és függőleges vonalak kötnek össze. A legtöbb SPSS-tankönyv csak ilyen mesterséges, kis mintákon tartalmaz klaszterelemzési példákat. Ebben az oktatóanyagban bemutatjuk, hogyan hozhatja ki a legtöbbet az SPSS-ből gyakorlati környezetben, és valódi piackutatási példákat mutat be.

Rizs. 5.45.

Amint azt megállapítottuk, sem a Icicle, sem a Dendogram nem alkalmas gyakorlati célokra. Ezért a Hierarchikus fürtelemzés fő párbeszédpanelében nem javasolt a diagramok megjelenítése az alapértelmezett Plots opció kijelölésének megszüntetésével a Megjelenítés területen, amint az az ábrán látható. 5.44. Most már minden készen áll a klaszterelemzés első szakaszának végrehajtására. Indítsa el az eljárást az OK gombra kattintva.

Egy idő után az eredmények megjelennek az SPSS Viewer ablakában. Mint fentebb említettük, az elemzés első szakaszának egyetlen számunkra jelentős eredménye az Átlagos kapcsolódás (csoportok között) táblázat lesz, amelyet az ábra mutat be. 5.46. A táblázat alapján meg kell határoznunk a klaszterek optimális számát. Meg kell jegyezni, hogy nincs egyetlen univerzális módszer a klaszterek optimális számának meghatározására. Ezt a számot a kutatónak minden esetben magának kell meghatároznia.

A tapasztalatok alapján a szerző ennek a folyamatnak a következő sémáját javasolja. Először is próbáljuk meg a klaszterek számának meghatározására a legelterjedtebb standard módszert alkalmazni. Az Átlagos kapcsolódás (Csoportok között) táblázat segítségével meg kell határozni, hogy a klaszterképzési folyamat mely lépésében (oszlop Stage) következik be az agglomerációs együttható első viszonylag nagy ugrása (együtthatók oszlop). Ez az ugrás azt jelenti, hogy előtte az egymástól meglehetősen kis távolságra lévő megfigyelések klaszterekbe kerültek (esetünkben az elemzett paraméterek tekintetében hasonló értékelési szinttel rendelkező válaszadók), és ettől kezdve a távolabbi megfigyelések. kombinálódnak.

Esetünkben az együtthatók simán nőnek 0-ról 7,452-re, vagyis az 1-től 728-ig tartó együtthatók közötti különbség kicsi volt (például 728 és 727 lépés között - 0,534). A 729. lépéstől kezdve megtörténik az együttható első jelentős ugrása: 7,452-ről 10,364-re (2,912-vel). Az a lépés, amelynél az együttható első ugrása megtörténik, 729. Most a klaszterek optimális számának meghatározásához ki kell vonni a kapott értéket teljes szám megfigyelések (mintanagyság). A teljes mintanagyság esetünkben 745 fő; ezért a klaszterek optimális száma 745-729 = 16.


Rizs. 5.46.

Elég nagy számú klasztert kaptunk, amit a jövőben nehéz lesz értelmezni. Ezért most meg kell vizsgálni a kapott klasztereket, és meg kell határozni, hogy melyikük szignifikáns, és melyeket kell megpróbálni csökkenteni. Ezt a problémát a klaszteranalízis második szakaszában oldjuk meg.

Nyissa meg a fürtelemzési eljárás fő párbeszédpanelét (menü Elemzés > Osztályozás > Hierarchikus fürt). Az elemzett változók mezőjében már hét paraméterünk van. Kattintson a Mentés gombra. A megnyíló párbeszédpanel (5.47. ábra) lehetővé teszi egy új változó létrehozását a forrásadatfájlban, amely a válaszadókat célcsoportokba osztja. Válassza az Egyetlen megoldás opciót, és a megfelelő mezőben adja meg a szükséges számú klasztert - 16 (a klaszterelemzés első szakaszában meghatározva). A Folytatás gombra kattintva visszatérhet a fő párbeszédpanelhez, ahol az OK gombra kattintva elindíthatja a klaszterelemzési eljárást.

Mielőtt folytatnánk a klaszterelemzési folyamat ismertetését, szükséges röviden ismertetni a többi paramétert is. Ezek között vannak hasznos tulajdonságok és valójában feleslegesek is (a gyakorlati marketingkutatás szempontjából). Például a fő Hierarchikus fürtelemzés párbeszédpanel tartalmaz egy Címkeesetek mezőt, amelyben opcionálisan elhelyezhet egy szöveges változót, amely azonosítja a válaszadókat. Esetünkben erre szolgálhat a q4 változó, amely a válaszadók által választott légitársaságokat kódolja. A gyakorlatban nehéz racionális magyarázatot találni a Label Case mezők szerinti használatára, így nyugodtan mindig üresen hagyhatja.

Rizs. 5.47.

A klaszteranalízis során ritkán a Statisztika párbeszédpanel kerül felhasználásra, amelyet a fő párbeszédpanel azonos nevű gombja hív meg. Lehetővé teszi a Cluster Membership tábla megjelenítését az SPSS Viewer ablakban, amelyben a forrásadatfájlban minden válaszadó egy fürtszámhoz van hozzárendelve. Megfelelően nagy számú válaszadó esetén (szinte minden marketingkutatási példában) ez a táblázat teljesen használhatatlanná válik, mivel ez egy hosszú „válaszadószám / klaszterszám” értékpárok sorozata, amely ebben a formában nem értelmezhető. . A klaszterelemzés technikai célja minden esetben egy olyan további változó létrehozása az adatállományban, amely tükrözi a válaszadók célcsoportokra való felosztását (a klaszterelemzés fő párbeszédablakban a Mentés gombra kattintva). Ez a változó a válaszadók számával együtt a Klasztertagság tábla. Az egyetlen praktikus lehetőség a Statisztika ablakban az Átlagos kapcsolat (csoportok között) tábla megjelenítése, de ez már alapértelmezés szerint be van állítva. Így a Statisztika gomb használata és egy külön fürttagsági tábla megjelenítése az SPSS Viewer ablakban nem praktikus.

A Plots gombot már fentebb említettük: a fő klaszterelemzés párbeszédpanelen a Plots paraméter kijelölésének törlésével kell deaktiválni.

A fürtelemzési eljárás e ritkán használt funkciói mellett az SPSS néhány nagyon hasznos lehetőséget is kínál. Közülük mindenekelőtt a Mentés gomb, amellyel a forrásadatfájlban új változót hozhatunk létre, amely klaszterekbe osztja a válaszadókat. A fő párbeszédablakban is van egy terület a klaszterezés tárgyának kiválasztásához: válaszadók vagy változók. Ezt a lehetőséget fentebb az 5.4. pontban tárgyaltuk. Az első esetben a klaszterelemzést főként a válaszadók bizonyos kritériumok szerinti szegmentálására használják; a másodikban a klaszteranalízis célja hasonló a faktoranalízishez: a változók osztályozása (számának csökkentése).

ábrából látható. 5.44, a klaszteranalízis egyetlen figyelmen kívül hagyott lehetősége a statisztikai eljárás lefolytatásának módját kiválasztó gomb Módszer. Ezzel a paraméterrel kísérletezve nagyobb pontosságot érhet el a klaszterek optimális számának meghatározásában. Ennek a párbeszédpanelnek az általános nézete az alapértelmezett beállításokkal az ábrán látható. 5.48.

Rizs. 5.48.

Az első dolog, ami ebben az ablakban van beállítva, a klaszterek kialakításának (vagyis a megfigyelések kombinálásának) módja. Az SPSS által kínált statisztikai módszerek összes lehetséges lehetősége közül válassza az alapértelmezett Between-groups linkage módszert vagy a Ward (Ward "s method) módszert. Az első módszert gyakrabban használják sokoldalúsága és viszonylagos egyszerűsége miatt. Az alapjául szolgáló statisztikai eljárás. Ezzel a módszerrel a klaszterek közötti távolságot az összes lehetséges megfigyelési pár távolságának átlagaként számítjuk ki, minden iteráció során az egyik megfigyelést az egyik klaszterből, a másikat pedig a másikból. megfigyelések. A Ward-módszer nehezebben érthető és ritkábban használatos. Több szakaszból áll, és azon alapul, hogy minden megfigyelésnél átlagolják az összes változó értékét, majd összegzik a kiszámított átlagok és az egyes megfigyelések közötti távolság négyzetét. gyakorlati célok, marketing Az új kutatásokhoz azt javasoljuk, hogy mindig használja az alapértelmezett Between-groups linkelési módszert.

A statisztikai klaszterezési eljárás kiválasztása után válasszon egy módszert a megfigyelések közötti távolságok kiszámításához (A Terület mérése a Módszer párbeszédpanelen). A klaszteranalízisben részt vevő három változótípus távolságának meghatározására különböző módszerek léteznek (szegmentációs kritériumok). Ezeknek a változóknak lehet intervallum (Interval), nominális (Counts) vagy dichotóm (bináris) skála. A dichotóm skála (bináris) csak azokat a változókat foglalja magában, amelyek egy esemény bekövetkezését/nem bekövetkezését tükrözik (megvett / nem vásárolt, igen / nem stb.). Más típusú dichotóm változókat (például férfi/nő) névlegesként (Counts) kell figyelembe venni és elemezni.

Az intervallumváltozók távolságának meghatározására leggyakrabban használt módszer az alapértelmezett négyzetes euklideszi távolság. Ez a módszer bizonyult a marketingkutatásban a legpontosabbnak és leguniverzálisabbnak. Azonban dichotóm változók esetén, ahol a megfigyeléseket csak két érték képviseli (például 0 és 1), ez a módszer nem megfelelő. A lényeg az, hogy csak a következő típusú megfigyelések közötti interakciókat veszi figyelembe: X = 1,Y = 0 és X = 0, Y=l (ahol X és Y változók), más típusú interakciókat pedig nem. A távolság legátfogóbb mértéke, amely figyelembe veszi a két dichotóm változó közötti kölcsönhatások összes fontos típusát, a Lambda-módszer. Sokoldalúsága miatt javasoljuk ennek a módszernek a használatát. Vannak azonban más módszerek is, például a Shape, a Hamann vagy az Anderbergs-féle D.

A dichotóm változók távolságának meghatározására szolgáló módszer megadásakor a megfelelő mezőben meg kell adni azokat a konkrét értékeket, amelyeket a vizsgált dichotóm változók vehetnek: a Jelen mezőben - a válasz kódolása Igen, a Hiányzó mezőben - Nem. . A jelenlévő és hiányzó mezők neve azzal a ténnyel jár, hogy a Bináris metóduscsoportban csak olyan dichotóm változókat kell használni, amelyek egy esemény bekövetkeztét/nem bekövetkezését tükrözik. Az Intervallum és Binary változók két típusa esetén többféle módszer létezik a távolság meghatározására. A névleges skálatípusú változókhoz az SPSS csak két módszert kínál: (Khi-négyzet mértéke) és (Phi-négyzet mértéke). Javasoljuk, hogy az első módszert használja, mint a leggyakoribb.

A Módszer párbeszédpanelnek van egy Értékek átalakítása területe, amely szabványosítási mezőt tartalmaz. Ez a mező akkor használatos, ha különböző skálatípusú változók (például intervallum és névleges) vesznek részt a klaszteranalízisben. Ahhoz, hogy ezeket a változókat klaszteranalízisben használhassuk, szabványosítást kell végrehajtani, amely egyetlen skálatípushoz vezeti őket. A változók szabványosításának legelterjedtebb módja a 2-standardizálás (Zscores): az összes változó egyetlen értéktartományra redukálódik -3 és +3 között, a transzformáció után pedig intervallum.

Mivel alapértelmezés szerint minden optimális módszer (klaszterezés és távolságmeghatározás) be van állítva, a Method párbeszédablakot csak az elemzendő változók típusának megadására, illetve a változók 2-es szabványosításának szükségességének jelzésére célszerű használni.

Tehát leírtuk az SPSS által a klaszteranalízishez biztosított összes főbb funkciót. Térjünk vissza a légitársaságok szegmentálása céljából végzett klaszteranalízis leírásához. Emlékezzünk vissza, hogy megállapodtunk egy tizenhat klaszteres megoldás mellett, és az eredeti adatállományban létrehoztunk egy új clul6_l változót, amely az összes elemzett légitársaságot klaszterekbe osztotta.

Annak megállapításához, hogy mennyire helyesen határoztuk meg a klaszterek optimális számát, a clul6_l változó lineáris eloszlását készítjük el (menü Elemzés > Leíró statisztikák > Gyakoriságok). ábrán látható módon. 5,49, az 5-16-os klaszterekben a válaszadók száma 1-től 7-ig terjed. A klaszterek optimális számának meghatározására fentebb leírt univerzális módszer mellett (a válaszadók összlétszáma és az első ugrás közötti különbség alapján) agglomerációs együttható), van egy további ajánlás is: a klaszterek méretének statisztikailag értelmesnek és praktikusnak kell lennie. A mi mintanagyságunkkal egy ilyen kritikus érték legalább 10-es szinten állítható be. Ezt az alatt látjuk ezt az állapotot csak az 1-4 számmal rendelkező klaszterek esnek. Ezért most újra kell számolni a klaszterelemzési eljárást egy négyklaszteres megoldás kimenetével (új du4_l változó jön létre).


Rizs. 5.49.

Ha az újonnan létrehozott du4_l változóra lineáris eloszlást építettünk, látni fogjuk, hogy csak két klaszterben (1 és 2) gyakorlatilag szignifikáns a válaszadók száma. Újra kell építenünk a fürtmodellt – most egy kétfürtös megoldáshoz. Ezt követően megszerkesztjük a du2_l változóra vonatkozó eloszlást (5.50. ábra). Amint a táblázatból látható, a két klaszteres megoldásnak statisztikailag és gyakorlatilag szignifikáns számú válaszadója van mind a két kialakult klaszterben: az 1. klaszterben 695 válaszadó; Így meghatároztuk a feladatunkhoz optimális klaszterszámot, és hét kiválasztott szempont szerint elvégeztük a válaszadók tényleges szegmentálását. Most már teljesítettnek tekinthetjük feladatunk fő célját, és továbbléphetünk a klaszterelemzés utolsó szakaszába - a kapott célcsoportok (szegmensek) értelmezéséhez.


Rizs. 5.50.

Az így kapott megoldás némileg eltér attól, amit az SPSS oktatóanyagokban láthatott. Még a leggyakorlatiasabb tankönyvek is kínálnak mesterséges példákat arra, hogy a klaszterezés ideális válaszadói célcsoportokat eredményez. Egyes esetekben (5) a szerzők egyenesen rámutatnak a példák mesterséges eredetére. Ebben az oktatóanyagban a gyakorlati marketingkutatásból származó, valós, ideális arányokban nem eltérő példát használunk a klaszteranalízis működésének szemléltetésére. Ez lehetővé teszi számunkra, hogy bemutassuk a klaszteranalízis végrehajtásának leggyakoribb nehézségeit, valamint a legjobb módszereket ezek kiküszöbölésére.

Mielőtt folytatnánk a kapott klaszterek értelmezését, foglaljuk össze. A klaszterek optimális számának meghatározásához a következő sémát használjuk.

¦ Az 1. lépésben az agglomerációs együttható alapján matematikai módszerrel meghatározzuk a klaszterek számát.

¦ A 2. szakaszban a válaszadókat a kapott klaszterszám szerint klaszterezzük, majd a kapott új változó (clul6_l) alapján lineáris eloszlást készítünk. Itt azt is meg kell határozni, hogy hány klaszterből áll statisztikailag szignifikáns számú válaszadó. Általában a klaszterek minimális szignifikáns számát legalább 10 válaszadó szintjén javasolt beállítani.

¦ Ha minden klaszter megfelel ennek a kritériumnak, akkor továbblépünk a klaszterelemzés utolsó szakaszához: a klaszterek értelmezéséhez. Ha vannak olyan klaszterek, amelyeknek elenyésző számú alkotó megfigyelése van, akkor meghatározzuk, hogy hány klaszterből áll jelentős számú válaszadó.

¦ A klaszterelemzési eljárást újraszámítjuk úgy, hogy a Mentés párbeszédpanelen megadjuk a jelentős számú megfigyelést tartalmazó klaszterek számát.

¦ Lineáris eloszlást építünk egy új változóra.

Ezt a műveletsort addig ismételjük, amíg olyan megoldást nem találunk, amelyben az összes klaszter statisztikailag szignifikáns számú válaszadóból áll majd. Ezt követően folytathatja a klaszterelemzés utolsó szakaszát - a klaszterek értelmezését.

Külön meg kell jegyezni, hogy a klaszterek számának gyakorlati és statisztikai szignifikancia kritériuma nem az egyetlen kritérium, amely alapján a klaszterek optimális száma meghatározható. A kutató önállóan, tapasztalatai alapján javaslatot tehet a klaszterek számára (a szignifikancia feltételnek teljesülnie kell). Egy másik lehetőség egy meglehetősen gyakori helyzet, amikor a vizsgálat céljaira előzetesen feltételt szabnak a válaszadók adott számú célcsoport szerinti szegmentálására. Ebben az esetben csak egyszer kell elvégezni egy hierarchikus klaszterelemzést, megtartva a szükséges számú klasztert, majd meg kell próbálni értelmezni, mi történik.

Az eredményül kapott célszegmensek leírásához a vizsgált változók (klaszter-centroidok) átlagértékeinek összehasonlító eljárását kell alkalmazni. Összehasonlítjuk a hét figyelembe vett szegmentációs kritérium átlagértékeit a két kapott klaszterben.

Az átlagok összehasonlításának eljárása az Elemzés > Átlagok összehasonlítása > Átlagok menü használatával hívható meg. A megnyíló párbeszédpanelen (5.51. ábra) válassza ki a bal oldali listából a szegmentálási feltételként kiválasztott hét változót (ql3-ql9), és vigye át a függő változók Függő lista mezőjébe. Ezután mozgassa a сШ2_1 változót, amely a válaszadók klaszterekre való felosztását tükrözi a probléma végső (két klaszteres) megoldásában, a bal oldali listából a független változók Independent List mezőjébe. Ezután kattintson a Beállítások gombra.

Rizs. 5.51.

Megnyílik az Opciók párbeszédpanel, amelyben válassza ki a szükséges statisztikákat a klaszterek összehasonlításához (5.52. ábra). Ehhez a Cell Statisztika mezőben csak az Átlag értékek kimenetét hagyja meg, az egyéb alapértelmezett statisztikákat eltávolítva belőle. Zárja be a Beállítások párbeszédpanelt a Folytatás gombra kattintva. Végül a fő Means párbeszédpanelen indítsa el az átlag összehasonlítási eljárást (OK gomb).

Rizs. 5.52.

A megnyíló SPSS Viewer ablakban megjelennek az átlagok összehasonlítására szolgáló statisztikai eljárás eredményei. Érdekel bennünket a Jelentés táblázat (5.53. ábra). Ebből látható, hogy az SPSS milyen alapon osztotta két klaszterre a válaszadókat. Esetünkben ilyen kritérium az elemzett paraméterek értékelési szintje. Az 1. klaszter azokból a válaszadókból áll, akiknél az összes szegmentációs kritérium átlagos pontszáma viszonylag magas (4,40 pont és afeletti). A 2. klaszterbe azok a válaszadók tartoznak, akik a figyelembe vett szegmentálási kritériumokat meglehetősen alacsonyra (3,35 pont alatt) értékelték. Megállapíthatjuk tehát, hogy az 1. klasztert alkotó válaszadók 93,3%-a összességében jónak értékelte az elemzett légitársaságokat; 5,4% meglehetősen alacsony; 1,3% talált nehezen válaszolt (lásd 5.50. ábra). ábrából 5,53, akkor arra is következtethetünk, hogy a külön-külön vizsgált paraméterek mindegyikére melyik minősítési szint magas és melyik alacsony (és ezt a következtetést fogják levonni a válaszadók, ami lehetővé teszi a magas besorolási pontosság elérését). A Jelentés táblázatból láthatja, hogy a Queue Throttling változónál a 4,40-es átlagos pontszám magasnak tekinthető, a paraméternél pedig Kinézet -- 4.72.


Rizs. 5.53.

Kiderülhet, hogy hasonló esetben az X paraméternél a 4.5 számít magas pontszámnak, az Y paraméternél pedig csak a 3.9. Ez nem klaszterezési hiba lesz, hanem éppen ellenkezőleg, lehetővé teszi, hogy fontos következtetést vonjunk le a vizsgált paraméterek jelentőségét illetően a válaszadók számára. Így az Y paraméternél már a 3,9 pont jó becslés, míg az X paraméternél szigorúbb követelményeket támasztanak a válaszadók.

Két olyan szignifikáns klasztert azonosítottunk, amelyek a szegmentációs kritériumok szerint különböznek az átlagos pontszámok szintjében. Mostantól címkéket rendelhet a kapott klaszterekhez: 1-hez - Légitársaságok, amelyek megfelelnek a válaszadók követelményeinek (a hét elemzett kritérium szerint); 2-re -- Légitársaságok, amelyek nem felelnek meg a válaszadók követelményeinek. Most láthatja, hogy mely légitársaságok (a q4 változóban kódolva) felelnek meg a válaszadók követelményeinek, és melyek nem a szegmentálási kritériumok szerint. Ehhez létre kell hoznia a q4 változó kereszteloszlását (elemzett légitársaságok) a clu2_l klaszterezési változó függvényében. Egy ilyen keresztmetszeti elemzés eredményeit az 1-1. 5.54.

A táblázat alapján a következő következtetések vonhatók le a vizsgált légitársaságok tagságára vonatkozóan a kiválasztott célszegmensekben.


Rizs. 5.54.

1. Légitársaságok, amelyek teljes mértékben megfelelnek minden ügyfél követelményeinek a földi személyzet munkáját illetően (csak egy első klaszterben szerepelnek):

¦ Vnukovo Airlines;

¦ American Airlines;

¦ Delta Airlines;

Austrian Airlines;

¦ British Airways;

¦ Korean Airlines;

Japan Airlines.

2. Azok a légitársaságok, amelyek a legtöbb ügyfeleik igényeit kielégítik a földi személyzet munkáját illetően (az ezekkel a légitársaságokkal repülő válaszadók többsége elégedett a földi személyzet munkájával):

¦ Transaero.

3. Azok a légitársaságok, amelyek a földi személyzet munkáját illetően nem felelnek meg ügyfeleik többségének követelményeinek (az ezekkel a légitársaságokkal repülő válaszadók többsége nem elégedett a földi személyzet munkájával):

¦ Domodedovo Airlines;

¦ Pulkovo;

¦ Szibéria;

¦ Ural Airlines;

¦ Samara Airlines;

Így a légitársaságok három célszegmensét kaptuk meg az átlagos értékelések szintjével, amelyeket a válaszadók különböző fokú elégedettsége jellemez a földi személyzet munkájával:

  • 1. az utasok számára legvonzóbb légitársaságok a földi személyzet munkáját tekintve (14);
  • 2. meglehetősen vonzó légitársaságok (1);
  • 3. meglehetősen nem vonzó légitársaságok (7).

Sikeresen teljesítettük a klaszterelemzés minden szakaszát, és hét kiválasztott kritérium szerint szegmentáltuk a légitársaságokat.

Most a faktoranalízissel párosított klaszteranalízis módszertanát ismertetjük. A probléma feltételét az 5.2.1. szakaszból (faktoriális elemzés) használjuk. Mint már említettük, a nagyszámú változós szegmentációs problémáknál a klaszteranalízist célszerű faktoranalízissel megelőzni. Ez azért történik, hogy a szegmentálási kritériumok számát a legjelentősebbekre csökkentsük. Esetünkben 24 változó van az eredeti adatfájlban. Ennek eredményeként faktoranalízis számukat sikerült 5-re csökkentenünk. Most már ez a számú faktor hatékonyan felhasználható a klaszteranalízishez, és maguk a faktorok is használhatók szegmentációs kritériumként.

Ha azzal a feladattal állunk szemben, hogy a válaszadókat az X légitársaság jelenlegi versenyhelyzetének különböző szempontjairól alkotott értékelésük alapján szegmentáljuk, hierarchikus klaszteranalízist végezhetünk az azonosított öt kritérium (nfacl_l-nfac5_l változók) szerint. Esetünkben a változókat különböző skálákon értékeltük. Például egy 1-es pontszám a Nem szeretném, ha a légitársaság változtatna kijelentésre, és ugyanaz a pontszám a Változások a légitársaságban állításra pozitív pillanat, jelentésében homlokegyenest ellentétes. Az első esetben az 1 pont (egyáltalán nem értek egyet) azt jelenti, hogy a válaszadó üdvözli a légitársaság változásait; a második esetben az 1-es pontszám azt jelzi, hogy a válaszadó elutasítja a légitársaság változásait. A klaszterek értelmezése során elkerülhetetlenül nehézségekbe ütközünk, mivel az ellentétes jelentésű változók

ugyanabba a tényezőbe esnek. Így a szegmentáláshoz először a vizsgált változók skáláit célszerű összhangba hozni, majd a faktoriális modellt újraszámolni. És már a továbbiakban klaszteranalízist végezni a faktoranalízis eredményeként kapott változókon-tényezőkön. A faktor- és klaszteranalízis eljárásait ismételten nem írjuk le részletesen (ezt fent, a vonatkozó részekben megtettük). Csak annyit jegyzünk meg, hogy ezzel a technikával a légi utasok három célcsoportját kaptuk, amelyek a kiválasztott tényezők (vagyis változócsoportok) értékelési szintjében különböznek egymástól: a legalacsonyabb, az átlagos és a legmagasabb.

A klaszteranalízis nagyon hasznos alkalmazása a gyakorisági táblázatok csoportjaira bontása. Tegyük fel, hogy a válaszok lineárisan eloszlanak arra a kérdésre, hogy milyen márkájú víruskeresők vannak telepítve az Ön szervezetében?. Ahhoz, hogy következtetéseket lehessen levonni erről a disztribúcióról, a víruskereső márkákat több csoportra kell osztani (általában 2-3). Az összes márka három csoportba sorolásához (legnépszerűbb márkák, átlagos népszerűség és népszerűtlen márkák) célszerű a klaszteranalízist alkalmazni, bár a gyakorisági táblázatok elemeit a kutatók általában szemenként választják el, szubjektív megfontolások alapján. Ezzel a megközelítéssel ellentétben a klaszteranalízis lehetővé teszi az elvégzett csoportosítás tudományos alátámasztását. Ehhez adja meg az egyes paraméterek értékeit az SPSS-ben (célszerű ezeket az értékeket százalékban kifejezni), majd végezzen klaszteranalízist ezeken az adatokon. A szükséges számú csoportra (esetünkben 3) a klasztermegoldást új változóként elmentve statisztikailag érvényes csoportosítást kapunk.

A fejezet utolsó részét a klaszteranalízis változók osztályozására való alkalmazásának ismertetésére és annak eredményeinek az 5.2.1. pontban végzett faktoranalízis eredményeivel való összehasonlítására fordítjuk. Ehhez ismét az X légitársaság légiközlekedési piacon elfoglalt helyzetének felmérésére vonatkozó probléma feltételét használjuk. A klaszteranalízis elvégzésének módszertana szinte teljesen megismétli a fentebb leírtakat (amikor a válaszadókat szegmentálták).

Tehát az eredeti adatfájlban 24 változó található, amelyek leírják a válaszadók hozzáállását az X légitársaság jelenlegi versenyhelyzetének különböző aspektusaihoz. Nyissa meg a fő Hierarchikus klaszterelemzés párbeszédpanelt, és helyezzen el 24 változót (ql-q24) a Változóban. (s) mező, ábra. 5.55. A Fürt területen jelezze, hogy változókat osztályoz (jelölje be a Változók opciót). Látni fogja, hogy a Mentés gomb elérhetetlenné vált – a faktorelemzéssel ellentétben a klaszterelemzés nem tudja elmenteni az összes válaszadó faktorértékelését. Tiltsa le a nyomtatást a Plots opció kikapcsolásával. Az első lépésben nincs szüksége más lehetőségre, ezért csak kattintson az OK gombra a fürtelemzési eljárás elindításához.

Az SPSS Viewer ablakában megjelent az Agglomeration Schedule táblázat, mely szerint a fent leírt módszerrel meghatároztuk a klaszterek optimális számát (5.56. ábra). Az agglomerációs együttható első ugrása a 20. lépésben figyelhető meg (18834.000-ről 21980.967-re). Az elemzett változók 24-nek megfelelő teljes száma alapján kiszámítható a klaszterek optimális száma: 24 - 20 = 4.

Rizs. 5.55.


Rizs. 5.56.

A változók osztályozása során gyakorlatilag és statisztikailag szignifikáns a csak egy változóból álló klaszter. Ezért, mivel a matematikai módszerrel elfogadható számú klasztert kaptunk, nincs szükség további ellenőrzésekre. Ehelyett nyissa meg újra a fő klaszterelemzés párbeszédpanelt (az előző lépésben használt összes adat megmarad), és kattintson a Statisztika gombra az osztályozási táblázat megjelenítéséhez. Ekkor megjelenik egy azonos nevű párbeszédpanel, ahol meg kell adni a klaszterek számát, amelyekre 24 változót kell felosztani (5.57. ábra). Ehhez válassza az Egy megoldás opciót, és a megfelelő mezőben adja meg a szükséges számú klasztert: 4. Most zárja be a Statisztika párbeszédpanelt a Folytatás gombra kattintva, és futtassa az eljárást a fő klaszterelemzési ablakból.

Ennek eredményeként az SPSS Viewer ablakban megjelenik a Cluster Membership tábla, amely az elemzett változókat négy klaszterbe osztja (5.58. ábra).

Rizs. 5.58.

E táblázat szerint minden egyes figyelembe vett változó egy adott klaszterhez rendelhető az alábbiak szerint.

1. klaszter

ql. Az X légitársaság kiváló utasszolgáltatásról híres.

q2. Az X Airline felveheti a versenyt a világ legjobb légitársaságaival.

q3. Úgy gondolom, hogy az Airline X-nek ígéretes jövője van a globális repülésben.

q5. Büszke vagyok arra, hogy az Airline X-nél dolgozhatok.

q9. Hosszú utat kell megtennünk ahhoz, hogy világszínvonalú légitársaságnak valljuk magunkat.

qlO. Az X légitársaság valóban törődik az utasokkal.

ql3. Imádom, ahogy az Airline X vizuálisan bemutatja magát a nagyközönségnek (színek és márkajelzések tekintetében).

ql4. Az X légitársaság Oroszország arca.

ql6. Az Airline X szolgáltatása végig egységes és felismerhető

ql8. Az X légitársaságnak változnia kell ahhoz, hogy teljes potenciálját kiaknázza.

ql9. Szerintem az Airline X-nek vizuálisan modernebb módon kell bemutatnia magát.

q20. Az X légitársaság változásai pozitívak lesznek. q21. Az Airline X egy hatékony légitársaság.

q22. Szeretném, ha javulna az X légitársaság imázsa a külföldi utasok tekintetében.

q23. Az X Airline jobb, mint azt a legtöbben gondolják.

q24. Fontos, hogy az emberek szerte a világon tudják, hogy orosz légitársaság vagyunk.

2. klaszter

q4. Tudom, mi lesz az Airline X jövőbeli stratégiája.

q6. Az X légitársaság jó kommunikációt folytat az osztályok között.

q7. A légitársaság minden alkalmazottja mindent megtesz a siker érdekében.

q8. Most az Airline X gyorsan fejlődik.

qll. A légitársaságok alkalmazottai között magas a munkával való elégedettség.

ql2. Hiszem, hogy a felsővezetők mindent megtesznek egy légitársaság sikeréért.

3. klaszter

ql5. Más légitársaságokhoz képest „tegnap”-nak nézünk ki.

4. klaszter

ql7. Nem szeretném, ha az X légitársaság megváltozna.

Ha összehasonlítja a faktoriális (5.2.1. szakasz) és a klaszteranalízis eredményeit, látni fogja, hogy ezek jelentősen eltérnek. A klaszterelemzés nemcsak lényegesen kevesebb lehetőséget biztosít a változók klaszterezésére (például a csoportértékelések mentésének képtelensége) a faktoranalízishez képest, hanem sokkal kevesebb vizuális eredményt is produkál. Esetünkben, ha a 2., 3. és 4. klaszter még mindig logikai értelmezésre alkalmas1, akkor az 1. klaszter teljesen eltérő jelentésű állításokat tartalmaz. Ebben a helyzetben vagy megpróbálhatja leírni az 1. fürtöt úgy, ahogy van, vagy újjáépíteni a statisztikai modellt eltérő számú fürttel. Ez utóbbi esetben a logikailag leírható klaszterek optimális számának megtalálásához használhatja a Statisztika párbeszédpanel Megoldások tartománya paraméterét (lásd 5.57. ábra), a megfelelő mezőkben megadva a klaszterek minimális és maximális számát ( esetünkben 4, illetve 6). Ilyen helyzetben az SPSS újraépíti a fürttagsági táblát minden egyes számú fürthöz. Az elemző feladata ebben az esetben olyan osztályozási modell kiválasztása, amelyben minden klaszter egyértelműen értelmezhető. A klaszterelemzési eljárás változók klaszterezési lehetőségeinek bemutatása érdekében nem építjük újra a klasztermodellt, hanem a fentebb elmondottakra szorítkozunk.

Megjegyzendő, hogy a klaszteranalízisnek a faktoranalízishez viszonyított látszólagos egyszerűsége ellenére a marketingkutatás szinte minden esetben gyorsabb és hatékonyabb a faktoranalízis, mint a klaszteranalízis. Ezért a változók osztályozásához (redukciójához) nyomatékosan javasoljuk a faktoranalízis alkalmazását, és hagyjuk meg a klaszteranalízis alkalmazását a válaszadók osztályozásánál.

Az osztályozási elemzés egy felkészületlen felhasználó szemszögéből talán az egyik legösszetettebb statisztikai eszköz. Ez annak köszönhető, hogy nagyon alacsony elterjedtsége a marketing cégeknél. Ugyanakkor a statisztikai módszereknek ez a sajátos csoportja a marketingkutatás területén dolgozó szakemberek számára is az egyik leghasznosabb.

klaszteranalízis viszonylag nemrég jelent meg - 1939-ben. K. Tryon tudós javasolta. Szó szerint a "cluster" kifejezés az angol "cluster" szóból ecsetet, vérrögöt, csomót, csoportot jelent.

A klaszteranalízis különösen gyors fejlődése a múlt század 60-as éveiben ment végbe. Ennek előfeltétele volt a nagy sebességű számítógépek megjelenése és az osztályozások felismerése, mint a tudományos kutatás alapvető módszere.

A klaszteranalízis a többváltozós statisztikai kutatás módszere, amely magában foglalja a mintaobjektumokra vonatkozó információkat tartalmazó adatok összegyűjtését és viszonylag homogén, hasonló csoportokba rendezését.

A klaszteranalízis lényege tehát a kutatási objektumok osztályozásának megvalósítása számos számítási eljárás segítségével. Ennek eredményeként "klaszterek" vagy nagyon hasonló objektumok csoportjai jönnek létre. Más módszerekkel ellentétben az ilyen típusú elemzés lehetővé teszi, hogy az objektumokat ne egy attribútum, hanem egyszerre több attribútum alapján osztályozzuk. Ehhez bevezetik a megfelelő mutatókat, amelyek az összes osztályozási paraméter bizonyos fokú hasonlóságát jellemzik.

A klaszteranalízis célja meglévő struktúrák felkutatása, amelyek egymáshoz hasonló objektumcsoportok - klaszterek - képzésében fejeződnek ki. Ugyanakkor tevékenysége abban rejlik, hogy a vizsgált objektumok szerkezetét bevezeti. Ez azt jelenti, hogy klaszterezési technikákra van szükség ahhoz, hogy az adatokban olyan mintákat tárjanak fel, amelyeket szemrevételezéssel vagy szakértők nem találnak könnyen.

A klaszteranalízis fő feladatai:

A vizsgált objektumok tipológiájának vagy osztályozásának kidolgozása;

Az objektumok csoportosítására vonatkozó elfogadható fogalmi sémák kutatása és meghatározása;

Hipotézisek generálása adatbányászati ​​eredmények alapján;

Hipotézisek tesztelése, hogy bizonyos módon azonosított típusok (csoportok) megjelennek-e a rendelkezésre álló adatok között.

A fürtelemzés a következő egymást követő lépéseket igényli:

1) objektumok mintavétele klaszterezéshez;

2) azon jellemzők készletének meghatározása, amelyek alapján a kiválasztott objektumokat kiértékelik;

3) az objektumok hasonlóságának mértékének értékelése;

4) klaszteranalízis alkalmazása hasonló objektumok csoportjainak létrehozására;

5) a klasztermegoldás eredményeinek megbízhatóságának ellenőrzése.

Ezen lépések mindegyike jelentős szerepet játszik az elemzés gyakorlati megvalósításában.

Az objektumok () klaszteranalízis során történő értékelésén alapuló jellemzők halmazának meghatározása a vizsgálat egyik legfontosabb feladata. Ennek a lépésnek a célja a hasonlóság fogalmát legjobban tükröző változó jellemzők halmazának azonosítása. Ezeket a jeleket az osztályozás alapjául szolgáló elméleti rendelkezések, valamint a vizsgálat céljának figyelembevételével választjuk ki.

A klaszteranalízis objektumok hasonlóságának mértékének meghatározásakor négyféle együtthatót alkalmazunk: korrelációs együtthatók, távolságmutatók, asszociativitási és valószínűségi együtthatók, hasonlósági együtthatók. Ezen mutatók mindegyikének megvannak a maga előnyei és hátrányai, amelyeket először is figyelembe kell venni. A gyakorlatban a korrelációs és távolsági együtthatókat a társadalom- és gazdaságtudományokban használják legszélesebb körben.

A bemeneti adathalmaz elemzése eredményeként homogén csoportok jönnek létre úgy, hogy ezeken a csoportokon belüli objektumok valamilyen kritérium szerint hasonlítanak egymásra, a különböző csoportokból származó objektumok pedig különböznek egymástól.

A klaszterezés két fő módon történhet, beleértve a hierarchikus vagy iteratív eljárásokat.

Hierarchikus eljárások- következetes cselekvések különböző rangú, egymásnak alárendelt klaszterek kialakítására egy világosan felállított hierarchia szerint. Leggyakrabban hierarchikus eljárások

agglomeratív (egyesítő) akciókkal valósulnak meg. Ezek a következő műveleteket tartalmazzák:

Hasonló objektumok következetes kombinációja az objektumok hasonlósági mátrixának kialakításával;

Dendrogram (fa diagram) felépítése, amely tükrözi az objektumok szekvenciális csoportosítását;

Egyedi klaszterek kialakítása a vizsgált sokaság szerint az elemzés első kezdeti szakaszában, és az összes objektum egy nagy csoportba való összevonása az elemzés végső szakaszában.

Az iteratív eljárások egyszintű (azonos rangú) klaszterek elsődleges adatainak kialakításából állnak, amelyek hierarchikusan nincsenek alárendelve egymásnak.

Több mint negyven éve az egyik legelterjedtebb iteratív eljárások végrehajtási módszere a k-means módszer (1967-ben fejlesztette ki J. McQueen). Alkalmazása a következő lépéseket igényli:

A vizsgált populáció kiindulási adatainak szétválasztása adott számú klaszterre

A kiválasztott klaszterek többdimenziós átlagainak (súlypontjainak) számítása

A klaszterek egyes vonzáspontjai halmazának egyes egységei euklideszi távolságának kiszámítása és távolságmátrix felépítése a távolságmetrika alapján. Különféle távolságmérők használatosak, például euklideszi távolság (egyszerű és súlyozott), Manhattan, Chebisev, Minkowski, Mahalanobis és hasonlók;

Új vonzási központok és új klaszterek azonosítása.

A leghíresebb és legszélesebb körben használt módszerek

A klaszterek kialakítása a következő:

Egyetlen csatlakozás;

Teljes kapcsolat;

Közepes kapcsolat;

Ward módszere.

Az egyetlen kapcsolódási módszer (közeli szomszéd módszer) azt jelenti, hogy egy populációs egységet csatlakoznak egy klaszterhez, ha közel áll (azonos hasonlósági szinten) ennek a klaszternek legalább egy képviselőjéhez.

A teljes kapcsolat (távolszomszéd) módszere bizonyos szintű objektumhasonlóságot igényel (nem kisebb, mint a határérték), állítólag egy klaszterben szerepel, bármely mással.

Az átlagos kapcsolódási módszer a klaszterbe való felvételre jelölt és a meglévő klaszter képviselői közötti átlagos távolság felhasználásán alapul.

Ward módszere szerint az objektumok a csoporton belüli négyzetes eltérések összegének minimális növekedése esetén kapcsolódnak klaszterekhez. Ennek köszönhetően megközelítőleg azonos méretű klaszterek jönnek létre, amelyek hipergömb alakúak.

A klaszteranalízis, a sztochasztikus kapcsolatok tanulmányozásának más módszereihez hasonlóan, számos összetett számítást igényel, jobb, ha modern eszközökkel végezzük el. információs rendszerek, beleértve a Statistica 6.0 szoftvertermék használatát is.

A kutatók különböző tanulmányokban alkalmazzák a klaszterelemzést, például a FÁK-országok lakosságának jóléti szintjének tanulmányozásakor (A. Miroshnichenko). Ehhez először 16 statisztikai főbb társadalmi-gazdasági mutatót választottak ki, amelyek a polgárok életszínvonalát jellemzik. különböző országokban FÁK:

1) Egy főre jutó GDP, USD USA;

2) átlagos havi nominálbér, rusz. dörzsölés.;

3) átlagos havi nyugdíj, orosz. dörzsölés.;

6) az élelmiszerek vásárlására fordított kiadások aránya a háztartások fogyasztói kiadásaiban, százalék;

7) hús és húskészítmények átlagos évi fogyasztása személyenként, kg;

8) a havi átlagos készpénzjövedelem erejéig vásárolható búzakenyér mennyisége (fő), kg;

9) teljes termékenységi ráta (1000 lakosra vetítve);

10) csecsemőhalandóság (1000 születésre vetítve haltak meg egy év alatti gyermekek)

11) a foglalkoztatottak száma a gazdaságilag aktív népesség százalékában;

12) a lakosság lakásellátása átlagosan (fő), összterület m2;

13) a rosszindulatú daganatos betegek száma (100 000 lakosra), fő;

14) a regisztrált bűncselekmények száma (100 000 lakosra vetítve), mértékegységek;

15) helyhez kötött szennyezőforrások által a légkörbe kibocsátott káros anyagok (per fő), kg;

16) múzeumlátogatás átlagosan évente (1000 lakosra vetítve), egység. (12.7. táblázat).

A kráterelemzés összehasonlítható és egyirányú mutatók alapján történik. Ezért először szabványosítani kell a bemeneti mátrix mutatóit. A heterogén populációk egyik leggyakoribb módszere (különösen a mi példánkban) a mutatók szabványosítása az eltérés - a és a q szabványosítási egység arányával. Ebben az esetben a szabványosítás mértékegysége a tényleges eltérési tartomány lesz.

Ugyanakkor, amint azt AM Erin és S.S. közgazdászok tudományos munkái mutatják. Vashchaev, az indikátorok-stimulátorok, míg az indikátorok-stimulátorok. Ennek alapján a mutatók standardizált értékeit a következő képletekkel számítják ki:

Az indikátorokhoz stimulánsok:;

Mert indikátorok-destimulátorok:.

ahol az i-ro mutató standardizált értéke a sokaság y-edik egységére,;

Az i-edik indikátor bemeneti értéke a számára j-edik egység aggregátumok.

Az így kapott szabványosított bemeneti adatokat a 12.8. táblázat mutatja be.

Azerbajdzsán

Fehéroroszország

Kazahsztán

Kirgizisztán

Tádzsikisztán

12.8. táblázat. Szabványosított bemeneti mátrix

Azerbajdzsán

Fehéroroszország

Kazahsztán

Kirgizisztán

Tádzsikisztán

A klaszteranalízis következő lépése egy távolságmátrix felépítése kell, hogy legyen, ami mindenekelőtt a távolságmérők kiválasztását foglalja magában. A gyakorlatban különféle távolságmérőket használnak: euklideszi, súlyozott euklideszi, manhattani, csebisevi, minkovszki, maalanobisz D 2 stb. Ebben az esetben a FÁK-országok csoportokra osztása a manhattani távolság segítségével történhet. A képlet alapján számítják ki

,

hol és vannak az i-edik standardizált értéke mutató j-edikÉs k-edik egységek aggregátumok.

A választott távolságmérték alapján szimmetrikus távolságmátrixot lehet felépíteni a FÁK országok között (12.9. táblázat).

FÁK országok

Azerbajdzsán

Fehéroroszország

Kazahsztán

Kirgizisztán

Tádzsikisztán

Azerbajdzsán

Fehéroroszország

Kazahsztán

Kirgizisztán

Tádzsikisztán

Az elemzés következő szakasza a FÁK-országok klaszterekbe vonásának módszerének kiválasztása. Mint már említettük, a klaszterek kialakításának leggyakoribb módszerei a következők:

Egyetlen csatlakozás;

Teljes kapcsolat;

Közepes kapcsolat;

Ward módszere.

Használjuk a Ward módszert, amely lehetővé teszi a csoporton belüli variancia minimalizálását a klasztereken belül. E módszer szerint az objektumok klaszterekhez való kapcsolását úgy hajtják végre, hogy a négyzetes eltérések csoporton belüli összege minimális legyen. Ez hozzájárul ahhoz, hogy megközelítőleg azonos méretű klaszterek képződjenek, amelyek hipergömb alakúak. A klaszteranalízis eredményeinek dendrogramja a 12.5. ábrán látható.

Rizs. 12.5. A FÁK-országok klaszterelemzési eredményeinek dendrogramja a lakosság életszínvonala tekintetében

Amint az ábrán látható, a dendrogram függőleges tengelye a FÁK-országokat tükrözi, a vízszintes tengely pedig az egyesülési távolságot.

A klaszterek optimális számának meghatározásához fel kell építeni egy grafikont Ukrajna régióinak klaszterekbe egyesítő listájáról, függőleges tengelyén ábrázolva a távolságokat, a vízszintes tengelyen pedig az összevonás lépését (12.6. ábra).

Rizs. 12.6. Grafikon a FÁK-országok klaszterekbe történő egyesülésének listájáról

Amint látjuk optimális szerint megállapított követelményeket Az optimalitás a FÁK-országok lakossági életszínvonal szerinti felosztása három klaszterre. Vegyük észre, hogy a klaszterek optimális számát egyenlőnek tekintjük a megfigyelések száma (példánkban 9) és azon lépések száma közötti különbséggel, amelyek után az egyesülési távolság hirtelen növekszik (példánkban 6).

Így a FÁK-országok három klaszterre oszlanak. Az első klaszterbe Azerbajdzsán és Tádzsikisztán, a másik Fehéroroszország, Ukrajna, Oroszország és Kazahsztán, a harmadik pedig Örményország, Moldova és Kirgizisztán.

A k-közép módszerrel kiszámítottuk a mutatók átlagos értékét mindhárom klaszter esetében (12.7. ábra).

Rizs. 12.7. Az egyes klaszterek indikátorainak átlagos értékei

ábrán látható módon. 12.7, az első klaszterbe azok az országok tartoznak, amelyekben nyolc mutató átlagos értéke kisebb, mint más klaszterekben.

Így az első klaszterbe tartozó Azerbajdzsán és Tádzsikisztán alacsony egy főre jutó GDP-vel rendelkezik, átlagos havi bérek(névleges), nyugdíjak, hús és húskészítmények fogyasztása, lakhatás. Más átlagos mutatók azonban magasabbak ezekben az országokban, különösen: állótőke-befektetési index, fogyasztói árindex, születési ráta.

A második klaszterbe sorolt ​​országokat az életszínvonal gazdasági komponensének magas paraméterei jellemzik, de sajnos alacsony születési ráta, magas rosszindulatú daganatos megbetegedések előfordulása, bűnözés, helyhez kötött források által a légkörbe történő nagymértékű károsanyag-kibocsátás. szennyezésről, amit a megfelelő mutatók is megerősítenek.

A harmadik klaszter országait alacsony mutatók jellemzik: az állóeszköz-befektetés mutatója, a közszférában a foglalkoztatás szintje, a regisztrált bűncselekmények, ami alacsony befektetési vonzerejükre és jelentős munkanélküliségre utal.

Tehát a klaszterelemzés a tudósok szerint nagy jelentőséggel bír az analitikus kutatások lefolytatásában, mivel nagy mennyiségű sokoldalú információt rendezett, kompakt formává alakíthat. Ez elősegíti az elemzés eredményeinek láthatóságának, egyértelműségének és érzékelhetőségének növelését, valamint alapot teremt az előrejelzéshez.

klaszteranalízis

A legtöbb kutató hajlamos azt hinni, hogy a „klaszteranalízis” kifejezés most először jelenik meg. fürt- csomó, alvadék, csomó) javasolta R. Trion matematikus. Ezt követően számos olyan kifejezés merült fel, amelyeket ma a "klaszteranalízis" kifejezés szinonimájának tekintenek: automatikus osztályozás; botriológia.

A klaszteranalízis egy többváltozós statisztikai eljárás, amely egy objektummintáról információkat tartalmazó adatokat gyűjt, majd az objektumokat viszonylag homogén csoportokba (klaszterekbe) rendezi (Q-clustering, vagy Q-technika, megfelelő klaszterelemzés). Klaszter - egy közös tulajdonsággal jellemezhető elemcsoport, a klaszteranalízis fő célja hasonló objektumok csoportjainak megtalálása a mintában. A klaszteranalízis alkalmazási köre igen széles: használják a régészetben, az orvostudományban, a pszichológiában, a kémiában, a biológiában, közigazgatás, filológia, antropológia, marketing, szociológia és más tudományok. Az alkalmazás egyetemessége azonban nagyszámú, egymással össze nem egyeztethető kifejezés, módszer és megközelítés megjelenéséhez vezetett, amelyek megnehezítik a klaszteranalízis egyértelmű használatát és következetes értelmezését. Orlov A. I. a következő megkülönböztetést javasolja:

Feladatok és feltételek

A klaszteranalízis a következőket hajtja végre fő feladatok:

  • Tipológia vagy osztályozás kidolgozása.
  • Hasznos fogalmi sémák feltárása az objektumok csoportosításához.
  • Hipotézisek generálása adatfeltárás alapján.
  • Hipotézisvizsgálat vagy kutatás annak megállapítására, hogy az így vagy úgy azonosított típusok (csoportok) valóban jelen vannak-e a rendelkezésre álló adatokban.

A vizsgálat tárgyától függetlenül a klaszteranalízis alkalmazása magában foglalja következő lépések:

  • Mintavétel a klaszterezéshez. Nyilvánvaló, hogy csak a mennyiségi adatokat célszerű klaszterezni.
  • Egy olyan változóhalmaz definíciója, amely alapján a mintában lévő objektumok kiértékelődnek, azaz egy jellemzőtér.
  • Az objektumok közötti hasonlóság (vagy különbség) egyik vagy másik mértékének értékeinek kiszámítása.
  • A klaszterelemzési módszer alkalmazása hasonló objektumok csoportjainak létrehozására.
  • A klasztermegoldás eredményeinek validálása.

A klaszterelemzés a következőket mutatja be adatkövetelmények:

  1. a mutatók nem korrelálhatnak egymással;
  2. a mutatók nem mondanak ellent a mérési elméletnek;
  3. a mutatók eloszlásának közel kell lennie a normálhoz;
  4. a mutatóknak meg kell felelniük a „stabilitás” követelményének, ami azt jelenti, hogy véletlenszerű tényezők nem befolyásolják értékeiket;
  5. a mintának homogénnek kell lennie, nem tartalmazhat "kiugró értékeket".

Az adatokkal szemben támasztott két alapvető követelmény leírása található - az egységesség és a teljesség:

A homogenitás megköveteli, hogy a táblázatban szereplő összes entitás azonos jellegű legyen. A teljesség követelménye, hogy a halmazok énÉs J bemutatta a vizsgált jelenség megnyilvánulási formáinak teljes leírását. Ha egy táblázatot tekintünk, amelyben én egy gyűjtemény, és J- az ezt a sokaságot leíró változók halmaza, akkor reprezentatív minta legyen a vizsgált sokaságból, és a jellemzők rendszere J kielégítő vektoros reprezentációt kell adnia az egyedekről én kutatói szemszögből.

Ha a klaszteranalízist faktoranalízis előzi meg, akkor a mintát nem kell „javítani” - a megadott követelményeket maga a faktormodellezési eljárás automatikusan végrehajtja (van még egy előnye - z-szabványosítás nélkül negatív következményei mintavételhez; ha közvetlenül klaszteranalízishez végezzük, az a csoportok szétválasztásának egyértelműségének csökkenéséhez vezethet). Ellenkező esetben a mintát módosítani kell.

A klaszterezési problémák tipológiája

Bemeneti típusok

A modern tudományban számos algoritmust használnak a bemeneti adatok feldolgozására. Az objektumok jellemzők alapján történő összehasonlításával végzett elemzés (a legelterjedtebb a biológiai tudományokban) ún K- az elemzés típusa, jellemzők összehasonlítása esetén objektumok alapján - R- az elemzés típusa. Vannak kísérletek hibrid típusú elemzések alkalmazására (pl. RQ elemzés), de ezt a módszertant még nem dolgozták ki megfelelően.

A klaszterezés céljai

  • Adatok megértése a klaszterstruktúra azonosításával. A minta hasonló objektumok csoportjaira bontása lehetővé teszi a további adatfeldolgozás és döntéshozatal egyszerűsítését azáltal, hogy minden klaszterre saját elemzési módszert alkalmaz (az „oszd meg és uralkodj” stratégia).
  • Adattömörítés. Ha a kezdeti minta túl nagy, akkor csökkenthető, így minden klaszterből az egyik legtipikusabb képviselő marad.
  • újdonság észlelése. újdonság észlelése). A rendszer olyan atipikus objektumokat választ ki, amelyek nem csatolhatók egyik fürthöz sem.

Az első esetben a klaszterek számát próbálják csökkenteni. A második esetben fontosabb az egyes klasztereken belüli objektumok nagyfokú hasonlóságának biztosítása, és tetszőleges számú klaszter lehet. A harmadik esetben azok az egyedi objektumok, amelyek egyik klaszterbe sem illeszkednek, a legnagyobb érdeklődésre számot tartóak.

Mindezekben az esetekben alkalmazható a hierarchikus klaszterezés, amikor a nagy klasztereket kisebbekre bontják, amelyek viszont még kisebbre, stb. Az ilyen feladatokat taxonómiai feladatoknak nevezzük. A taxonómia eredménye egy faszerű hierarchikus struktúra. Ezenkívül minden objektumot az összes olyan klaszter felsorolása jellemez, amelyekhez tartozik, általában a nagytól a kicsiig.

Klaszterezési módszerek

A klaszterezési módszereknek nincs általánosan elfogadott osztályozása, de V. S. Berikov és G. S. Lbov határozott próbálkozása megjegyezhető. Ha általánosítjuk a klaszterezési módszerek különböző osztályozásait, akkor számos csoportot különböztethetünk meg (egyes módszerek egyszerre több csoporthoz is hozzárendelhetők, ezért ezt a tipizálást a klaszterezési módszerek valós osztályozásának közelítésének javasoljuk):

  1. Valószínűségi megközelítés. Feltételezzük, hogy minden vizsgált objektum a k osztály valamelyikébe tartozik. Egyes szerzők (például A. I. Orlov) úgy vélik, hogy ez a csoport egyáltalán nem tartozik a klaszterezéshez, és „diszkrimináció” néven ellenzik azt, vagyis az objektumok valamelyik ismert csoporthoz való hozzárendelését (képzési minták).
  2. Mesterséges intelligencia rendszereken alapuló megközelítések. Nagyon feltételes csoport, mivel sok mesterséges intelligencia módszer létezik, és módszertanilag is nagyon különböznek egymástól.
  3. logikus megközelítés. A dendrogram felépítése döntési fa segítségével történik.
  4. Gráfelméleti megközelítés.
    • Grafikon klaszterező algoritmusok
  5. Hierarchikus megközelítés. Beágyazott csoportok (különböző sorrendű klaszterek) jelenlétét feltételezzük. Az algoritmusokat pedig agglomeratív (egyesítő) és osztó (elválasztó) részekre osztják. A jellemzők száma szerint néha megkülönböztetnek monotetikus és politetikus osztályozási módszereket.
    • Hierarchikus felosztási klaszterezés vagy taxonómia. A klaszterezési problémákat a kvantitatív taxonómia veszi figyelembe.
  6. Egyéb módszerek. Nem szerepelt az előző csoportokban.
    • Statisztikai klaszterezési algoritmusok
    • Klaszterek együttese
    • A KRAB család algoritmusai
    • Szitálási módszeren alapuló algoritmus
    • DBSCAN stb.

A 4. és 5. megközelítést néha a strukturális vagy geometriai megközelítés elnevezéssel kombinálják, amely a közelség formalizáltabb fogalmával rendelkezik. A felsorolt ​​módszerek közötti jelentős különbségek ellenére mindegyik az eredetire támaszkodik. tömörségi hipotézis»: az objektumtérben minden közeli objektumnak ugyanabba a klaszterbe kell tartoznia, és minden különböző objektumnak különböző klaszterben kell lennie.

A klaszterezési probléma formális nyilatkozata

Legyen objektumok halmaza, klaszterek számainak (neveinek, címkéinek) halmaza. Az objektumok közötti távolságfüggvény adott. Az objektumok véges tanítókészlete létezik. A mintát nem átfedő részhalmazokra kell felosztani, ún klaszterek, így minden klaszter metrikusan közeli objektumokból áll, és a különböző klaszterek objektumai jelentősen eltérnek egymástól. Ebben az esetben minden objektumhoz egy fürtszám tartozik.

Klaszterezési algoritmus egy olyan függvény, amely bármely objektumot fürtszámhoz rendel. A halmaz bizonyos esetekben előre ismert, de gyakrabban a klaszterek optimális számának meghatározása a feladat egyik vagy másik szempontjából. minőségi kritériumok klaszterezés.

A klaszterezés (un-supervised learning) abban különbözik az osztályozástól (felügyelt tanulás), hogy az eredeti objektumok címkéi kezdetben nincsenek beállítva, sőt maga a halmaz ismeretlen is lehet.

A klaszterezési probléma megoldása alapvetően nem egyértelmű, ennek több oka is van (több szerző szerint):

  • nincs egyedülállóan legjobb kritérium a klaszterezés minőségére. Számos heurisztikus kritérium ismert, valamint számos olyan algoritmus, amelyek nem rendelkeznek egyértelműen meghatározott kritériummal, de meglehetősen ésszerű klaszterezést hajtanak végre „konstrukció szerint”. Mindegyik különböző eredményt adhat. Ezért a klaszterezés minőségének meghatározásához a témakör szakértője szükséges, aki felmérheti a klaszterek kiválasztásának értelmét.
  • a klaszterek száma általában nem ismert előre, és valamilyen szubjektív kritérium alapján van beállítva. Ez csak a diszkriminációs módszerekre igaz, mivel a klaszterezési módszerekben a klaszterek kiválasztása formalizált közelségi mérőszámokon alapuló megközelítéssel történik.
  • a klaszterezés eredménye jelentősen függ a mérőszámtól, amelynek megválasztása általában szintén szubjektív, és szakértő határozza meg. De érdemes megjegyezni, hogy számos ajánlás létezik a közelítési intézkedések kiválasztására különböző feladatokhoz.

Alkalmazás

A biológiában

A biológiában a klaszterezés számos területen alkalmazható. Például a bioinformatikában kölcsönható gének összetett hálózatainak elemzésére használják, amelyek néha több száz vagy akár több ezer elemből állnak. A klaszteranalízis lehetővé teszi a vizsgált rendszer alhálózatainak, szűk keresztmetszeteinek, hubjainak és egyéb rejtett tulajdonságainak azonosítását, ami végső soron lehetővé teszi az egyes gének hozzájárulásának a vizsgálatát a vizsgált jelenség kialakulásához.

Az ökológia területén széles körben használják térben homogén élőlénycsoportok, közösségek stb. azonosítására. Ritkábban alkalmaznak klaszterelemzési módszereket a közösségek időbeli vizsgálatára. A közösségek szerkezetének heterogenitása a klaszterelemzés nem triviális módszereinek megjelenéséhez vezet (például a Czekanowski-módszer).

Általában érdemes megjegyezni, hogy történetileg a hasonlósági mérőszámokat gyakrabban használják közelségi mérőszámként a biológiában, nem pedig különbség (távolság) mértékként.

A szociológiában

Az eredmények elemzésekor szociológiai kutatás az elemzést egy hierarchikus agglomeratív család módszereivel, nevezetesen a Ward-módszerrel javasolt elvégezni, melyben a klasztereken belül a minimális szórást optimalizáljuk, ennek eredményeként megközelítőleg azonos méretű klaszterek jönnek létre. A szociológiai adatok elemzésére Ward módszere a legsikeresebb. A különbség mértékeként a kvadratikus euklideszi távolság jobb, ami hozzájárul a klaszterek kontrasztjának növekedéséhez. A hierarchikus klaszteranalízis fő eredménye egy dendrogram vagy "jégcsapdiagram". Értelmezése során a kutatók a faktoranalízis eredményeinek értelmezéséhez hasonló problémával – a klaszterek azonosításának egyértelmű kritériumainak hiányával – szembesülnek. Főként két módszer alkalmazása javasolt - a dendrogram vizuális elemzése és a különböző módszerekkel végzett klaszterezés eredményeinek összehasonlítása.

A dendrogram vizuális elemzése magában foglalja a fa „bevágását”. optimális szint mintaelemek hasonlóságai. A „szőlőágat” (Oldenderfer M.S. és Blashfield R.K. terminológiája) 5 körül kell „levágni” a Rescaled Distance Cluster Combine skálán, így 80%-os hasonlósági szintet érünk el. Ha a klaszterek kiválasztása ezzel a címkével nehézkes (több kis fürt egyesül egy nagyba rajta), akkor választhat másik címkét. Ezt a technikát Oldenderfer és Blashfield javasolta.

Most felmerül az elfogadott klasztermegoldás stabilitásának kérdése. Valójában a klaszterezés stabilitásának ellenőrzése a megbízhatóságának ellenőrzésén múlik. Itt van egy ökölszabály – a stabil tipológia megmarad, ha a klaszterezési módszerek megváltoznak. A hierarchikus klaszteranalízis eredményei iteratív k-közép klaszteranalízissel ellenőrizhetők. Ha a válaszadói csoportok összehasonlított besorolásaiban az egyezések aránya meghaladja a 70%-ot (az egybeesések több mint 2/3-a), akkor klaszterdöntés születik.

Lehetetlen ellenőrizni a megoldás megfelelőségét más típusú elemzés igénybevétele nélkül. Legalábbis elméletileg ez a probléma nem oldódott meg. Oldenderfer és Blashfield klasszikus klaszterelemzése öt további robusztussági vizsgálati módszert dolgoz ki, és végül elutasít:

A számítástechnikában

  • A keresési eredmények klaszterezése – a találatok „intelligens” csoportosítására szolgál fájlok, webhelyek, egyéb objektumok keresésekor, lehetővé téve a felhasználó számára, hogy gyorsan navigáljon, válasszon ki egy nyilvánvalóan relevánsabb részhalmazt, és kizárjon egy nyilvánvalóan kevésbé releváns részhalmazt – ami növelheti a az interfész használhatósága az egyszerű relevancialista szerinti kimenethez képest.
    • Clusty – a Vivísimo klaszterező keresőmotorja
    • Nigma - orosz keresőmotor automatikus találatcsoportosítással
    • Quintura - vizuális klaszterezés kulcsszófelhő formájában
  • Képszegmentálás képszegmentálás) - A klaszterezés használható a digitális kép különálló régiókra bontására élérzékelés céljából. éldetektáló) vagy tárgyfelismerés.
  • Adatbányászat adatbányászat)- A klaszterezés az adatbányászatban akkor válik értékessé, ha az adatelemzés egyik szakaszaként működik, és egy teljes analitikai megoldást épít fel. Az elemzőnek gyakran könnyebb azonosítani a hasonló objektumok csoportjait, tanulmányozni a jellemzőit, és minden csoporthoz külön modellt építeni, mint létrehozni egyet. általános modell minden adathoz. Ezt a technikát folyamatosan alkalmazzák a marketingben, kiemelve vásárlói csoportokat, vásárlókat, árukat, és mindegyikre külön stratégiát dolgoznak ki.

Lásd még

Megjegyzések

Linkek

Oroszul
  • www.MachineLearning.ru – a gépi tanulásnak és adatbányászatnak szentelt professzionális wiki-forrás
Angolul
  • COMPACT – Összehasonlító csomag a klaszterezés értékeléséhez. Egy ingyenes Matlab csomag, 2006.
  • P. Berkhin, Felmérés a klaszterezési adatbányászati ​​technikákról, Accrue Software, 2002.
  • Jain, Murty és Flynn: Adatcsoportosítás: áttekintés, ACM Comp. Surv., 1999.
  • A hierarchikus, k-középek és fuzzy c-középek egy másik bemutatásához lásd ezt a klaszterezés bevezetőjét. A Gauss-féle keveredésről is van magyarázat.
  • David Dowe, Mixture Modeling oldal- egyéb klaszterezési és keverékmodell hivatkozások.
  • oktatóanyag a klaszterezésről
  • Az on-line tankönyv: Information Theory, Inference, and Learning Algorithms, David J.C. A MacKay fejezeteket tartalmaz a k-közép klaszterezésről, a soft k-means klaszterezésről és a levezetésekről, beleértve az E-M algoritmus és az E-M algoritmus variációs nézete.
  • „Az önszerveződő gén”, oktatóanyag, amely a klaszterezést versengő tanuláson és önszerveződő térképeken keresztül magyarázza.
  • kernlab - R csomag kernel alapú gépi tanuláshoz (a spektrális fürtözés megvalósítását tartalmazza)
  • Oktatóanyag – oktatóanyag a klaszterezési algoritmusok (k-középek, fuzzy-c-means, hierarchikus, Gauss-féle keverékek) bemutatásával + néhány interaktív demó (java kisalkalmazások)
  • Adatbányászati ​​szoftver – Az adatbányászati ​​szoftver gyakran használ fürtözési technikákat.
  • Java Competive Learning Application Felügyelet nélküli neurális hálózatok csomagja fürtözéshez. Java nyelven írva. Teljes forráskóddal.
  • Gépi tanulási szoftver – Sok klaszterező szoftvert is tartalmaz.