Кластерний аналіз об'єктів. Завдання кластеризації у Data Mining. Кластеризація асортименту торгових точок

Random Forest - один із моїх улюблених алгоритмів data mining. По-перше він неймовірно універсальний, з його допомогою можна вирішувати як завдання регресії, так і класифікації. Проводити пошук аномалій та відбір предикторів. По-друге, це той алгоритм, який дійсно складно застосувати неправильно. Просто тому, що на відміну від інших алгоритмів у нього мало параметрів, що настроюються. І ще він напрочуд простий за своєю суттю. І в той же час він вирізняється дивовижною точністю.

У чому ж ідея такого чудового алгоритму? Ідея проста: припустимо, у нас є якийсь дуже слабкий алгоритм, скажімо, . Якщо ми зробимо дуже багато різних моделей з використанням цього слабкого алгоритму і середнім результатом їх передбачень, то підсумковий результат буде істотно кращим. Це так зване навчання ансамблю в дії. Алгоритм Random Forest тому і називається "Випадковий Ліс", для отриманих даних він створює безліч дерев ухвалення рішень і потім усереднює результат їх пророцтв. Важливим моментом є елемент випадковості у створенні кожного дерева. Адже зрозуміло, що якщо ми створимо багато однакових дерев, то результат їх усереднення матиме точність одного дерева.

Як він працює? Припустимо, ми маємо деякі дані на вході. Кожна стовпчик відповідає деякому параметру, кожен рядок відповідає деякому елементу даних.

Ми можемо вибрати випадковим чином з усього набору даних кілька стовпців і рядків і побудувати по них дерево прийняття рішень.


Thursday, May 10, 2012

Thursday, January 12, 2012


Ось, власне, і все. 17-ти годинний переліт позаду Росія залишилася за океаном. А у вікно затишної двох спальної квартири на нас дивиться Сан-Франциско, знаменита Кремнієва долина, Каліфорнія, США. Так, це і є та сама причина, через яку я практично не писав останнім часом. Ми переїхали.

Все це почалося ще у квітні 2011 року, коли я проходив телефонне інтерв'ю у компанії Zynga. Тоді це все здавалося якоюсь грою, яка не мала відношення до реальності, і я й уявити не міг, у що це виллється. У червні 2011 року Zynga приїхали до Москви і провели серію співбесід, розглядалося близько 60 кандидатів, які пройшли телефонне інтерв'ю, і з них було відібрано близько 15 осіб (точне число не знаю, хтось потім передумав, хтось відразу відмовився). Інтерв'ю виявилося несподівано простим. Ні тобі завдань на програмування, ні хитромудрих питань про форму люків, в основному перевірялися можливості базікати. А знання, як на мене, оцінювалися лише поверхово.

А далі почалася тягар. Спочатку ми чекали на результати, потім офера, потім схвалення LCA, потім схвалення петиції на візу, потім документи зі США, потім чергу в посольстві, потім додаткову перевірку, потім візу. Часом мені здавалося, що я готовий все кинути та забити. Іноді я сумнівався, а чи потрібна нам ця Америка і в Росії непогано. Весь процес зайняв десь близько півроку, зрештою, у середині грудня ми отримали візи і почали готуватися до від'їзду.

У понеділок був перший робочий день на новому місці. В офісі створені всі умови для того, щоб не тільки працювати, а й жити. Сніданки, обіди та вечері від власних кухарів, купа різноманітної їжі, розпханої по всіх куточках, спортзал, масаж і навіть перукар. Все це безкоштовно для співробітників. Багато хто добирається на роботу на велосипеді і для зберігання транспорту обладнано кілька кімнат. Загалом нічого подібного в Росії мені зустрічати не доводилося. Усьому, однак, є своя ціна, нас одразу попередили, що працювати доведеться багато. Що таке "багато", за їхніми мірками, мені не дуже зрозуміло.

Сподіваюся, однак, що незважаючи на кількість роботи, в найближчому майбутньому зможу відновити ведення блогу і, можливо, розповім щось про американське життя та роботу програмістом в Америці. Поживемо побачимо. А поки що, вітаю всіх з новим роком і різдвом і до нових зустрічей!


Наприклад використання, роздрукуємо дивідендну дохідність російських предприятий. Як базова ціна, беремо ціну закриття акції в день закриття реєстру. Чомусь на сайті трійки цієї інформації немає, адже вона набагато цікавіша за абсолютні величини дивідендів.
Увага! Код виконується досить довго, т.к. для кожної акції потрібно зробити запит на сервер finam і отримати її вартість.

Result<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0)( try(( quotes<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0) (dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Аналогічно можна збудувати статистику для минулих років.

Завдання кластерного аналізу

Кластерний аналіз виконує такі основні завдання:

  • · Дослідження схем угруповання об'єктів;
  • · Вироблення гіпотез на базі досліджень даних;
  • · Підтвердження гіпотез та досліджень даних;
  • · Визначення присутності груп усередині даних.

Етапи кластерного аналізу

Незалежно від предмета вивчення застосування кластерного аналізу передбачає такі етапи:

  • 1. Формування вибірки для кластеризації;
  • 2. Виділення ознакового простору;
  • 3. Вибір міри подібності (відстань) між об'єктами;
  • 4. Застосування методу кластерного аналізу;
  • 5. Перевірка результатів кластеризації.

Існують дві ключові вимоги до даних:

  • · Однорідність - необхідність гарантувати єдину природу всіх сутностей, що кластеризуються. Тобто всі об'єкти повинні описуватися подібним набором показників;
  • · Повнота - зміст даних у достатньому по всій їх номенклатурі, необхідних раціонального чи оптимального рішення конкретної задачи.
  • · Розбиття вибірки на групи подібних об'єктів для спрощення розуміння кластерної структури, що спрощує обробку даних та прийняття рішення, застосовуючи до кожного кластера свій спосіб аналізу.
  • · Скорочення обсягу даних, залишаючи по одному або кілька найбільш типових представників від кожного класу. У таких завданнях важливіше забезпечити високий рівень схожості об'єктів усередині кожного кластера, а кластерів може бути скільки завгодно.
  • · Виділення нетипових об'єктів, аномалій чи викидів, визначення новизни кластерів чи його кількості. Найбільший інтерес становлять окремі об'єкти, які не вписуються в жодний із кластерів.

У всіх цих випадках може застосовуватися ієрархічна кластеризація, коли великі кластери дробляться на дрібніші, ті у свою чергу дробляться ще дрібніше і т. д. Такі завдання називаються задачами таксономії. Результатом таксономії є деревоподібна ієрархічна структура. У цьому кожен об'єкт характеризується перерахуванням всіх кластерів, яким належить, зазвичай від великого до дрібного.

У статистиці існує два основних типи кластерного аналізу (обидва представлені в SPSS): ієрархічний та здійснюваний методом k-середніх. У першому випадку автоматизована статистична процедура самостійно визначає оптимальну кількість кластерів та низку інших параметрів, необхідних для кластерного.

аналізу. Другий тип аналізу має суттєві обмеження щодо практичної застосування - для нього необхідно самостійно визначати і точну кількість виділених кластерів, і початкові значення центрів кожного кластера (центроїди), і деякі інші статистики. При аналізі методом k-середніх дані проблеми вирішуються попереднім проведенням ієрархічного кластерного аналізу і потім на підставі його результатів розрахунком кластерної моделі за методом k-середніх, що у більшості випадків не тільки не спрощує, а навпаки, ускладнює роботу дослідника (особливо непідготовленого).

В цілому можна сказати, що у зв'язку з тим, що ієрархічний кластерний аналіз дуже вимогливий до апаратних ресурсів комп'ютера, кластерний аналіз за методом k-середніх введений в SPSS для обробки дуже великих масивів даних, що складаються з багатьох тисяч спостережень (респондентів), в умовах недостатньої потужності комп'ютерного оборудования1. Розміри вибірок, які у маркетингових дослідженнях, найчастіше вбирається у чотири тисячі респондентів. Практика маркетингових дослідженьпоказує, що саме перший тип кластерного аналізу – ієрархічний – рекомендується для використання у всіх випадках як найбільш релевантний, універсальний та точний. Разом з тим, необхідно підкреслити, що при проведенні кластерного аналізу важливим є відбір релевантних змінних. Дане зауваження дуже суттєве, оскільки включення в аналіз кількох або навіть однієї нерелевантної змінної здатне призвести до невдачі всієї статистичної процедури.

Опис методики проведення кластерного аналізу ми проведемо на прикладі з практики маркетингових досліджень.

Початкові дані:

У ході дослідження було опитано 745 авіапасажирів, які літали однією з 22 російських та зарубіжних авіакомпаній. Авіапасажирів просили оцінити за п'ятибальною шкалою – від 1 (дуже погано) до 5 (відмінно) – сім параметрів роботи наземного персоналу авіакомпаній у процесі реєстрації пасажирів на рейс: ввічливість, професіоналізм, оперативність, готовність допомогти, регулювання черги, зовнішній вигляд, робота персоналу загалом.

Потрібно:

Сегментувати досліджувані авіакомпанії за рівнем якості роботи наземного персоналу, що сприймається авіапасажирами.

Отже, ми маємо файл даних, який складається з семи інтервальних змінних, що позначають оцінки якості роботи наземного персоналу різних авіакомпаній (ql3-ql9), представлені в єдиній п'ятибальній шкалі. Файл даних містить одноваріантну змінну q4, що вказує на обрані респондентами авіакомпанії (всього 22 найменування). Проведемо кластерний аналіз та визначимо, на які цільові групиможна поділити дані авіакомпанії.

Ієрархічний кластерний аналіз проводиться у два етапи. Результат першого етапу - число кластерів (цільових сегментів), куди слід розділити досліджувану вибірку респондентів. Процедура кластерного аналізу як така

може самостійно визначити оптимальну кількість кластерів. Вона може лише підказати потрібне число. Оскільки завдання визначення оптимальної кількості сегментів є ключовою, вона зазвичай вирішується на окремому етапі аналізу. На другому етапі проводиться власне кластеризація спостережень за кількістю кластерів, яке було визначено в ході першого етапу аналізу. Наразі розглянемо ці кроки кластерного аналізу по порядку.

Процедура кластерного аналізу запускається за допомогою меню Analyze > Classify > Hierarchical Cluster. У діалоговому вікні з лівого списку всіх наявних у файлі даних змінних виберіть змінні, які є критеріями сегментування. У нашому випадку їх сім, і позначають оцінки параметрів роботи наземного персоналу ql3-ql9 (рис. 5.44). У принципі зазначення сукупності критеріїв сегментування буде цілком достатньо виконання першого етапу кластерного аналізу.

Мал. 5.44.

За замовчуванням крім таблиці з результатами формування кластерів, на підставі якої ми визначимо їх оптимальне число, SPSS виводить також спеціальну гістограму перевернуту icicle, що допомагає, за задумом творців програми, визначити оптимальну кількість кластерів; виведення діаграм здійснюється кнопкою Plots (рис. 5.45). Однак, якщо залишити цей параметр встановленим, ми витратимо багато часу на обробку навіть порівняно невеликого файлу даних. Крім icicle у вікні Plots можна вибрати швидшу лінійчасту діаграму Dendogram. Вона є горизонтальними стовпчиками, що відбивають процес формування кластерів. Теоретично при невеликій (до 50-100) кількості респондентів дана діаграма дійсно допомагає вибрати оптимальне рішення щодо кількості кластерів. Однак практично у всіх прикладах маркетингових досліджень розмір вибірки перевищує це значення. Дендограма стає абсолютно марною, тому що навіть при відносно невеликій кількості спостережень є дуже довгою послідовністю номерів рядків вихідного файлу даних, з'єднаних між собою горизонтальними і вертикальними лініями. Більшість підручників із SPSS містять приклади кластерного аналізу саме на таких штучних, малих вибірках. У цьому посібнику ми показуємо, як найбільш ефективно працювати з SPSS у практичних умовах та на прикладі реальних маркетингових досліджень.

Мал. 5.45.

Як ми з'ясували, для практичних цілей ні Icicle, ні Dendogram не придатні. Тому в головному діалоговому вікні Hierarchical Cluster Analysis рекомендується не виводити діаграми, скасувавши вибраний за замовчуванням параметр Plots в області Display, як показано на рис. 5.44. Тепер усе готове до виконання першого етапу кластерного аналізу. Запустіть процедуру, натиснувши кнопку ОК.

Через деякий час у вікні SPSS Viewer з'являться результати. Як було зазначено вище, єдиним значимим нам підсумком першого етапу аналізу буде таблиця Average Linkage (Between Groups), представлена ​​на рис. 5.46. З цієї таблиці ми повинні визначити оптимальне число кластерів. Слід зазначити, що єдиного універсального методу визначення оптимального числа кластерів немає. У кожному даному випадку дослідник повинен сам визначити це число.

Виходячи з наявного досвіду, автор пропонує наступну схему цього процесу. Насамперед, спробуємо застосувати найпоширеніший стандартний метод визначення числа кластерів. По таблиці Average Linkage (Between Groups) слід визначити, якому етапі процесу формування кластерів (колонка Stage) відбувається перший порівняно великий стрибок коефіцієнта агломерації (колонка Coefficients). Цей стрибок означає, що у кластери об'єднувалися спостереження, що є досить малих відстанях друг від друга (у разі респонденти зі схожим рівнем оцінок по аналізованим параметрам), а починаючи з цього етапу відбувається об'єднання далеких спостережень.

У разі коефіцієнти плавно зростають від 0 до 7,452, тобто різниця між коефіцієнтами на кроках з першого по 728 була мала (наприклад, між 728 і 727 кроками -- 0,534). Починаючи з 729 кроку відбувається перший суттєвий стрибок коефіцієнта: з 7,452 до 10,364 (на 2,912). Крок, на якому відбувається перший стрибок коефіцієнта, - 729. Тепер, щоб визначити оптимальну кількість кластерів, необхідно відняти отримане значення загальної кількостіспостережень (розміру вибірки). Загальний розмір вибірки у разі становить 745 людина; отже, оптимальна кількість кластерів становить 745-729 = 16.


Мал. 5.46.

Ми отримали досить велику кількість кластерів, які надалі буде складно інтерпретувати. Тому тепер слід досліджувати отримані кластери та визначити, які з них є значущими, а які потрібно спробувати скоротити. Це завдання вирішується на другому етапі кластерного аналізу.

Відкрийте головне діалогове вікно процедури кластерного аналізу (меню Analyze > Classify > Hierarchical Cluster). У полі для аналізованих змінних ми вже маємо сім параметрів. Натисніть кнопку Save. Діалогове вікно, що відкрилося (рис. 5.47) дозволяє створити у вихідному файлі даних нову змінну, що розподіляє респондентів на цільові групи. Виберіть Single Solution і вкажіть у відповідному полі необхідну кількість кластерів - 16 (визначено на першому етапі кластерного аналізу). Клацнувши на кнопці Continue, поверніться до головного діалогового вікна, в якому клацніть на кнопці ОК, щоб запустити процедуру кластерного аналізу.

Перед тим, як продовжити опис процесу кластерного аналізу, необхідно навести короткий опис інших параметрів. Серед них є як корисні можливості, так і зайві (з точки зору практичних маркетингових досліджень). Так, наприклад, головне діалогове вікно Hierarchial Cluster Analysis містить поле Label Cases by, в яке за бажанням можна помістити текстову змінну, що ідентифікує респондентів. У нашому випадку для цих цілей може бути змінна q4, що кодує обрані респондентами авіакомпанії. На практиці складно вигадати раціональне пояснення використанню поля Label Cases by, тому можна спокійно завжди залишати його порожнім.

Мал. 5.47.

Нечасто під час проведення кластерного аналізу використовується діалогове вікно Statistics, викликане однойменною кнопкою у головному діалоговому вікні. Воно дозволяє організувати висновок у вікні SPSS Viewer таблиці Cluster Membership, у якій кожному респонденту у вихідному файлі даних зіставляється номер кластера. Дана таблиця при досить велику кількість респондентів (практично в усіх прикладах маркетингових досліджень) стає абсолютно марною, оскільки є довгу послідовність пар значень «номер респондента/номер кластера», у вигляді не піддається інтерпретації. Технічно мета кластерного аналізу завжди полягає у освіті у файлі даних додаткової змінної, що відбиває поділ респондентів на цільові групи (з допомогою клацання на кнопці Save у головному діалоговому вікні кластерного аналізу). Ця змінна разом із номерами респондентів і є таблиця Cluster Membership. Єдиний практично корисний параметр у вікні Statistics – виведення таблиці Average Linkage (Between Groups), проте він вже встановлений за умовчанням. Таким чином, використання кнопки Statistics та виведення окремої таблиці Cluster Membership у вікні SPSS Viewer є недоцільним.

Про кнопку Plots вже було сказано вище: її слід дезактивізувати, скасувавши параметр Plots у головному діалоговому вікні кластерного аналізу.

Крім цих можливостей процедури кластерного аналізу, що рідко використовуються, SPSS пропонує і дуже корисні параметри. Серед них насамперед кнопка Save, що дозволяє створити у вихідному файлі даних нову змінну, що розподіляє респондентів за кластерами. Також у головному діалоговому вікні існує область вибору об'єкта кластеризації: респондентів чи змінних. Про цю можливість йшлося вище у розділі 5.4. У першому випадку кластерний аналіз використовується переважно для сегментування респондентів за деякими критеріями; у другому мета проведення кластерного аналізу аналогічна факторному аналізу: класифікація (скорочення числа) змінних.

Як видно із рис. 5.44 єдиною не розглянутою можливістю кластерного аналізу є кнопка вибору методу проведення статистичної процедури Method. Експерименти з цим Параметром дозволяють досягти більшої точності щодо оптимального числа кластерів. Загальний вигляд діалогового вікна з параметрами, встановленими за замовчуванням, представлений на рис. 5.48.

Мал. 5.48.

Перше, що встановлюється у цьому вікні, - це спосіб формування кластерів (тобто об'єднання спостережень). Серед усіх можливих варіантів статистичних методик, пропонованих SPSS, слід вибирати або встановлений за замовчуванням метод Between-groups linkage, або процедуру Ward (Ward's method). При використанні цього методу відстань між кластерами обчислюється як середнє значення відстаней між усіма можливими парами спостережень, причому в кожній ітерації бере участь одне спостереження з одного кластеру, а друге - з іншого. теоретично можливих пар спостережень Метод Ward більш складний для розуміння і використовується рідше Він складається з безлічі етапів і заснований на усередненні значень всіх змінних для кожного спостереження і подальшому сумуванні квадратів відстаней від обчислених середніх до кожного спостереження Для вирішення практичних завдань маркетинг ових досліджень ми рекомендуємо завжди використовувати метод Between-groups linkage, встановлений за умовчанням.

Після вибору статистичної процедури кластеризації слід вибрати метод для обчислення відстаней між спостереженнями (область Measure у діалоговому вікні Method). Існують різні методи визначення відстаней для трьох типів змінних, що у кластерному аналізі (критеріїв сегментування). Ці змінні можуть мати інтервальну (Interval), номінальну (Counts) чи дихотомічну (Binary) шкалу. Дихотомічна шкала (Binary) має на увазі тільки змінні, що відображають настання/ненастання будь-якої події (купив/не купив, так/ні і т. д.). Інші типи дихотомічних змінних (наприклад, чоловік/жінка) слід розглядати та аналізувати як номінальні (Counts).

Найчастіше використовуваним методом визначення відстаней для інтервальних змінних є квадрат евклідова відстані (Squared Euclidean Distance), що встановлюється за умовчанням. Саме цей метод зарекомендував себе у маркетингових дослідженнях як найбільш точний та універсальний. Однак для дихотомічних змінних, де спостереження представлені лише двома значеннями (наприклад, 0 та 1), цей метод не підходить. Справа в тому, що він враховує тільки взаємодії між спостереженнями типу: X = 1, Y = 0 і X = 0, Y = l (де X та Y - змінні) і не враховує інші типи взаємодій. Найбільш комплексним заходом відстані, що враховує всі важливі типи взаємодій між двома дихотомічними змінними, є метод Лямбда (Lambda). Ми рекомендуємо застосовувати саме цей метод через його універсальність. Однак існують інші методи, наприклад Shape, Hamann або Anderbergs's D.

При вказівці методу визначення відстаней для дихотомічних змінних у відповідному полі необхідно вказати конкретні значення, які можуть набувати досліджувані дихотомічні змінні: у полі Present – ​​кодування відповіді Так, а в полі Absent – ​​Ні. Назви полів присутні і відсутні асоційовані з тим, що в групі методів Binary передбачається використовувати тільки дихотомічні змінні, що відображають настання/ненастання будь-якої події. Для двох типів змінних Interval та Binary існує кілька методів визначення відстані. Для змінних з номінальним типом шкали SPSS пропонує лише два методи: (Chi-square measure) та (Phi-square measure). Ми рекомендуємо використовувати перший метод як найпоширеніший.

У діалоговому вікні Method є область Transform Values, де знаходиться поле Standardize. Це поле застосовується в тому випадку, коли в кластерному аналізі беруть участь змінні з різним типом шкали (наприклад, інтервальні та номінальні). Для того, щоб використовувати ці змінні в кластерному аналізі, слід провести стандартизацію, що приводить їх до єдиного типу шкали - інтервального. Найпоширенішим методом стандартизації змінних є 2-стандартизація (Zscores): усі змінні приводяться до єдиного діапазону значень від -3 до +3 і після перетворення є інтервальними.

Так як всі оптимальні методи (кластеризації та визначення відстаней) встановлені за умовчанням, доцільно використовувати діалогове вікно Method тільки для вказівки типу змінних, що аналізуються, а також для вказівки необхідності зробити 2-стандартизацію змінних.

Отже, ми описали всі основні можливості SPSS для проведення кластерного аналізу. Повернемося до опису кластерного аналізу, який проводиться з метою сегментування авіакомпаній. Нагадаємо, що ми зупинилися на шістнадцятикластерному рішенні і створили у вихідному файлі даних нову змінну clul6_l, що розподіляє всі аналізовані авіакомпанії кластерами.

Щоб встановити, наскільки правильно ми визначили оптимальну кількість кластерів, побудуємо лінійний розподіл змінної clul6_l (меню Analyze > Descriptive Statistics > Frequencies). Як бачимо на рис. 5.49, у кластерах з номерами 5-16 число респондентів становить від 1 до 7. Поряд з вищеописаним універсальним методом визначення оптимальної кількості кластерів (на підставі різниці між загальним числом респондентів і першим стрибком коефіцієнта агломерації) існує також додаткова рекомендація: розмір кластерів повинен бути значним і майже прийнятним. За нашого розміру вибірки таке критичне значення можна встановити хоча б на рівні 10. Ми бачимо, що під ця умовапотрапляють лише кластери із номерами 1-4. Тому тепер необхідно перерахувати процедуру кластерного аналізу з виведенням чотирикластерного рішення (буде створена нова змінна du4_l).


Мал. 5.49.

Побудувавши лінійний розподіл за новоствореною змінною du4_l, ми побачимо, що тільки у двох кластерах (1 та 2) число респондентів є практично значущим. Нам необхідно знову перебудувати кластерну модель – тепер для двокластерного рішення. Після цього побудуємо розподіл змінної du2_l (рис. 5.50). Як ви бачите з таблиці, двокластерне рішення має статистично і практично значну кількість респондентів у кожному з двох сформованих кластерів: у кластері 1 - 695 респондентів; в кластері 2 - 40. Отже, ми визначили оптимальну кількість кластерів для нашого завдання і провели власне сегментування респондентів за сімома обраними критеріями. Тепер можна вважати основну мету нашої задачі досягнутою і розпочинати завершальний етап кластерного аналізу - інтерпретації отриманих цільових груп (сегментів).


Мал. 5.50.

Отримане рішення дещо відрізняється від тих, які ви, можливо, бачили у навчальних посібниках з SPSS. Навіть у практично орієнтованих підручниках наведені штучні приклади, де в результаті кластеризації виходять ідеальні цільові групи респондентів. У деяких випадках (5) автори прямо вказують на штучне походження прикладів. У цьому посібнику ми застосуємо як ілюстрацію дії кластерного аналізу реальний приклад із практичного маркетингового дослідження, що не відрізняється ідеальними пропорціями. Це дозволить нам показати найпоширеніші труднощі проведення кластерного аналізу, і навіть оптимальні методи усунення.

Перед тим як приступити до інтерпретації отриманих кластерів, давайте підіб'ємо підсумки. У нас вийшла наступна схема визначення оптимальної кількості кластерів.

На етапі 1 ми визначаємо кількість кластерів на підставі математичного методу, заснованого на коефіцієнті агломерації.

На етапі 2 ми проводимо кластеризацію респондентів за отриманим числом кластерів і потім будуємо лінійний розподіл за утвореною новою змінною (clul6_l). Тут також слід визначити, скільки кластерів складаються зі статистично значної кількості респондентів. У випадку рекомендується встановлювати мінімально значну чисельність кластерів лише на рівні щонайменше 10 респондентів.

Якщо всі кластери задовольняють даному критерію, переходимо до завершального етапу кластерного аналізу: інтерпретації кластерів. Якщо є кластери з незначною кількістю складових спостережень, встановлюємо, скільки кластерів складаються з значної кількості респондентів.

Перелічуємо процедуру кластерного аналізу, вказавши в діалоговому вікні Save кількість кластерів, що складаються з значної кількості спостережень.

Будуємо лінійний розподіл за новою змінною.

Така послідовність дій повторюється до того часу, доки знайдено рішення, у якому всі кластери складатимуться зі статистично значної кількості респондентів. Після цього можна переходити до завершального етапу кластерного аналізу - інтерпретації кластерів.

Слід зазначити, що критерій практичної і статистичної значимості чисельності кластерів перестав бути єдиним критерієм, яким можна визначити оптимальне число кластерів. Дослідник може самостійно, виходячи з наявного в нього досвіду запропонувати число кластерів (умова значимості має задовольнятися). Іншим варіантом є досить поширена ситуація, коли з метою дослідження наперед ставиться умова сегментувати респондентів за заданою кількістю цільових груп. У цьому випадку необхідно просто один раз провести ієрархічний кластерний аналіз зі збереженням необхідного числа кластерів і намагатися інтерпретувати те, що вийде.

Щоб описати отримані цільові сегменти, слід скористатися процедурою порівняння середніх значень досліджуваних змінних (кластерних центроїдів). Ми порівняємо середні значення семи критеріїв сегментування, що розглядаються в кожному з двох отриманих кластерів.

Процедура порівняння середніх значень викликається за допомогою меню Analyze > Compare Means > Means. У діалоговому вікні (рис. 5.51) з лівого списку виберіть сім змінних, обраних як критерії сегментування (ql3-ql9), і перенесіть їх у поле для залежних змінних Dependent List. Потім змінну сШ2_1, що відображає поділ респондентів на кластери при остаточному (двокластерному) розв'язанні задачі, перемістіть із лівого списку в поле для незалежних змінних Independent List. Після цього натисніть кнопку Options.

Мал. 5.51.

Відкриється діалогове вікно Options, виберіть у ньому необхідні статистики порівняння кластерів (рис. 5.52). Для цього в полі Cell Statistics залиште лише висновок середніх значень Mean, видаливши з нього інші стандартні статистики. Закрийте діалогове вікно Options клацанням кнопки Continue. Нарешті з головного діалогового вікна Means запустіть процедуру порівняння середніх значень (кнопка ОК).

Мал. 5.52.

У вікні SPSS Viewer з'являться результати роботи статистичної процедури порівняння середніх значень. Нас цікавить таблиця Report (рис. 5.53). З неї можна побачити, на якій підставі SPSS розділила респондентів на два кластери. Таким критерієм у разі служить рівень оцінок по аналізованим параметрам. Кластер 1 складається з респондентів, для яких середні оцінки за всіма критеріями сегментування знаходяться на порівняно високому рівні (4,40 балів і вище). Кластер 2 включає респондентів, що оцінили критерії сегментування, що розглядаються, досить низько (3,35 бала і нижче). Отже, можна дійти невтішного висновку у тому, що 93,3 % респондентів, сформували кластер 1, оцінили аналізовані авіакомпанії за всіма параметрами загалом добре; 5,4% - досить низько; 1,3% - важко відповісти (див. рис. 5.50). З рис. 5.53 можна також зробити висновок про те, який рівень оцінок для кожного з аналізованих параметрів окремо є високим, а який - низьким (причому даний висновок буде зроблено з боку респондентів, що дозволяє досягти високої точності класифікації). З таблиці Report можна побачити, що з змінної Регулювання черги високим вважається рівень середньої оцінки 4,40, а параметра Зовнішній вигляд -- 4.72.


Мал. 5.53.

Може виявитися, що в аналогічному випадку за параметром X високою оцінкою вважається 4,5, а за параметром Y - лише 3,9. Це не буде помилкою кластеризації, а навпаки, дозволить зробити важливий висновок щодо значущості для респондентів аналізованих параметрів. Так, для параметра Y вже 3,9 бала є гарною оцінкою, тоді як до параметра X респонденти висувають суворіші вимоги.

Ми ідентифікували два значних кластери, що відрізняються за рівнем середніх оцінок за критеріями сегментування. Тепер можна присвоїти мітки отриманим кластерам: для 1 - Авіакомпанії, які відповідають вимогам респондентів (за семи аналізованим критеріям); для 2 - Авіакомпанії, які не відповідають вимогам респондентів. Тепер можна подивитися, які авіакомпанії (закодовані в змінній q4) задовольняють вимогам респондентів, а які - немає за критеріями сегментування. Для цього слід побудувати перехресний розподіл змінної q4 (аналізовані авіакомпанії) залежно від змінної, що кластеризує, clu2_l. Результати такого перехресного аналізу наведено на рис. 5.54.

За цією таблицею можна зробити такі висновки щодо членства досліджуваних авіакомпаній у виділених цільових сегментах.


Мал. 5.54.

1. Авіакомпанії, що повністю задовольняють вимогам всіх клієнтів за параметром роботи наземного персоналу (входять лише до першого кластеру):

| Внуківські авіалінії;

American Airlines;

Delta Airlines;

Austrian Airlines;

| British Airways;

| Korean Airlines;

Japan Airlines.

2. Авіакомпанії, які задовольняють вимогам більшості своїх клієнтів за параметром роботи наземного персоналу (більшість респондентів, що літають даними авіакомпаніями, задоволені роботою наземного персоналу):

Трансаеро.

3. Авіакомпанії, які не задовольняють вимогам більшості своїх клієнтів за параметром роботи наземного персоналу (більшість респондентів, що літають даними авіакомпаніями, не задоволені роботою наземного персоналу):

Домодєдовські авіалінії;

Пулково;

Сибір;

Уральські авіалінії;

Самарські авіалінії;

Таким чином, отримано три цільові сегменти авіакомпаній за рівнем середніх оцінок, що характеризуються різним ступенем задоволеності респондентів роботою наземного персоналу:

  • 1. найбільш привабливі для пасажирів авіакомпанії за рівнем роботи наземного персоналу (14);
  • 2. швидше за привабливі авіакомпанії (1);
  • 3. скоріш непривабливі авіакомпанії (7).

Ми успішно завершили всі етапи кластерного аналізу та сегментували авіакомпанії за семи виділеними критеріями.

Тепер наведемо опис методики кластерного аналізу у парі з факторним. Використовуємо умову завдання розділу 5.2.1 (факторний аналіз). Як було зазначено, у завданнях сегментування за великої кількості змінних доцільно випереджати кластерний аналіз факторным. Це робиться скорочення кількості критеріїв сегментування до найбільш значимих. У нашому випадку у вихідному файлі даних ми маємо 24 змінні. В результаті факторного аналізунам вдалося скоротити їх число до 5. Тепер це число факторів може ефективно застосовуватися для кластерного аналізу, а самі фактори - використовуватися як критерії сегментування.

Якщо перед нами стоїть завдання сегментувати респондентів щодо їх оцінки різних аспектів поточної конкурентної позиції авіакомпанії X, можна провести ієрархічний кластерний аналіз за виділеними п'ятьма критеріями (змінні nfacl_l-nfac5_l). У нашому випадку змінні оцінювалися за різними шкалами. Наприклад, оцінка 1 для затвердження Я б не хотів, щоб авіакомпанія змінювалася і така сама оцінка затвердження Зміни в авіакомпанії будуть позитивним моментом діаметрально протилежні за змістом. У першому випадку 1 бал (цілком не згоден) означає, що респондент вітає зміни в авіакомпанії; у другому випадку оцінка 1 бал свідчить про те, що респондент відкидає зміни в авіакомпанії. При інтерпретації кластерів ми неминуче виникнуть труднощі, оскільки такі протилежні за змістом змінні можуть

потрапити в той самий фактор. Таким чином, для цілей сегментування рекомендується спочатку привести у відповідність шкали досліджуваних змінних, а потім перерахувати факторну модель. І далі проводити кластерний аналіз над отриманими внаслідок факторного аналізу змінними-факторами. Ми не будемо докладно описувати процедури факторного та кластерного аналізу (це було зроблено вище у відповідних розділах). Зазначимо лише, що за такої методики в результаті у нас вийшло три цільові групи авіапасажирів, що розрізняються за рівнем оцінок виділеним факторам (тобто групам змінних): нижча, середня та вища.

Дуже корисним застосуванням кластерного аналізу є поділ на групи частотних таблиць. Припустимо, у нас є лінійний розподіл відповідей на питання Які марки антивірусів встановлені у Вашій організації? Для формування висновків з цього розподілу необхідно розділити марки антивірусів на кілька груп (зазвичай 2-3). Щоб розділити всі марки на три групи (найпопулярніші марки, середня популярність і непопулярні марки), найкраще скористатися кластерним аналізом, хоча, як правило, дослідники поділяють елементи частотних таблиць на око, ґрунтуючись на суб'єктивних міркуваннях. На противагу такому підходу кластерний аналіз дозволяє науково обґрунтувати виконане угруповання. Для цього слід ввести значення кожного параметра SPSS (ці значення доцільно виражати у відсотках) і потім виконати кластерний аналіз для цих даних. Зберігши кластерне рішення для необхідної кількості груп (у нашому випадку 3) у вигляді нового змінного, ми отримаємо статистично обґрунтоване угруповання.

Заключну частину цього розділу ми присвятимо опису застосування кластерного аналізу для класифікації змінних та порівняння його результатів із результатами факторного аналізу, проведеного у розділі 5.2.1. Для цього ми знову скористаємося умовою завдання оцінити поточну позицію авіакомпанії X на ринку авіаперевезень. Методика проведення кластерного аналізу майже повністю повторює описану вище (коли сегментувалися респонденти).

Отже, у вихідному файлі даних ми маємо 24 змінні, що описують ставлення респондентів до різних аспектів поточної конкурентної позиції авіакомпанії X. Відкрийте головне діалогове вікно Hierarchical Cluster Analysis і помістіть 24 змінні (ql-q24) у полі Variable(s), рис. 5.55. В області Cluster вкажіть, що ви класифікуєте змінні (позначте параметр Variables). Ви побачите, що кнопка Save стала недоступною – на відміну від факторного, в кластерному аналізі не можна зберегти факторні рейтинги для всіх респондентів. Відмовтеся від виведення діаграм, дезактивувавши параметр Plots. На першому етапі вам не потрібні інші параметри, тому просто натисніть кнопку ОК, щоб запустити процедуру кластерного аналізу.

У вікні SPSS Viewer з'явилася таблиця Agglomeration Schedule, за якою ми визначили оптимальну кількість кластерів описаним вище методом (рис. 5.56). Перший стрибок коефіцієнта агломерації спостерігається на 20 кроці (з 18834000 до 21980967). Виходячи із загального числа аналізованих змінних, що дорівнює 24, можна обчислити оптимальну кількість кластерів: 24 - 20 = 4.

Мал. 5.55.


Мал. 5.56.

При класифікації змінних майже і статистично значимим є кластер, що складається всього з однієї змінної. Тому оскільки ми отримали прийнятне число кластерів математичним методом, проведення подальших перевірок не потрібно. Натомість знову відкрийте головне діалогове вікно кластерного аналізу (всі дані, використані на попередньому етапі, збереглися) і клацніть на кнопці Statistics, щоб організувати виведення класифікаційної таблиці. Ви побачите однойменне діалогове вікно, де необхідно вказати число кластерів, на яке необхідно розділити 24 змінні (рис. 5.57). Для цього виберіть параметр Single solution та у відповідному полі вкажіть потрібну кількість кластерів: 4. Тепер закрийте діалогове вікно Statistics клацанням на кнопці Continue і з головного вікна кластерного аналізу запустіть процедуру виконання.

В результаті у вікні SPSS Viewer з'явиться таблиця Cluster Membership, що розподіляє змінні, що аналізуються, на чотири кластери (рис. 5.58).

Мал. 5.58.

За цією таблицею можна віднести кожну змінну, що розглядається, у певний кластер наступним чином.

Кластер 1

ql. Авіакомпанія X має репутацію компанії, яка чудово обслуговує пасажирів.

q2. Авіакомпанія X може конкурувати з найкращими авіакомпаніями світу.

q3. Я вірю, що авіакомпанія X має перспективне майбутнє у світовій авіації.

q5. Я пишаюся тим, що працюю в авіакомпанії X.

q9. Нам чекає довгий шлях, перш ніж ми зможемо претендувати на те, щоб називатися авіакомпанією світового класу.

qlO. Авіакомпанія X справді дбає про пасажирів.

ql3. Мені подобається, як нині авіакомпанія X представлена ​​візуально широкому загалу (у плані кольорової гами та фірмового стилю).

ql4. Авіакомпанія X - обличчя Росії.

ql6. Обслуговування авіакомпанії X є послідовним і пізнаваним у всьому

ql8. Авіакомпанії X необхідно змінюватися для того, щоб використати в повному обсязі наявний потенціал.

ql9. Я думаю, що авіакомпанії X необхідно уявити себе у візуальному плані сучасніше.

q20. Зміни в авіакомпанії X будуть позитивним моментом. q21. Авіакомпанія X – ефективна авіакомпанія.

q22. Я хотів би, щоб імідж авіакомпанії X покращився з погляду іноземних пасажирів.

q23. Авіакомпанія X - краще, ніж багато хто про неї думають.

q24. Важливо, щоб люди в усьому світі знали, що ми – російська авіакомпанія.

Кластер 2

q4. Я знаю, якою буде стратегія розвитку авіакомпанії X у майбутньому.

q6. У авіакомпанії X гарна взаємодія між підрозділами.

q7. Кожен співробітник авіакомпанії докладає всіх зусиль для того, щоб забезпечити її успіх.

q8. Наразі авіакомпанія X швидко покращується.

qll. Серед співробітників авіакомпанії має місце високий рівень задоволеності роботою.

ql2. Я вірю, що менеджери вищої ланки докладають усіх зусиль для досягнення успіху авіакомпанії.

Кластер 3

ql5. Ми виглядаємо «вчорашнім днем», порівняно з іншими авіакомпаніями.

Кластер 4

ql7. Я не хотів би, щоб авіакомпанія X змінювалася.

Порівнявши результати факторного (розділ 5.2.1) та кластерного аналізів, ви побачите, що вони суттєво різняться. Кластерний аналіз не лише надає суттєво менші можливості для кластеризації змінних (наприклад, відсутність можливості зберігати групові рейтинги) порівняно з факторним аналізом, але й видає набагато менш наочні результати. У разі, якщо кластери 2, 3 і 4 ще піддаються логічної інтерпретації1, то кластер 1 містить зовсім різні за змістом затвердження. У цій ситуації можна або спробувати описати кластер 1 так, або перебудувати статистичну модель з іншим числом кластерів. В останньому випадку для пошуку оптимальної кількості кластерів, що піддаються логічному опису, можна скористатися параметром Range of solutions у діалоговому вікні Statistics (див. рис. 5.57), вказавши у відповідних полях мінімальну та максимальну кількість кластерів (у нашому випадку 4 і 6 відповідно). У такій ситуації SPSS перебудує таблицю Cluster Membership кожного числа кластерів. Завдання аналітика в даному випадку - спробувати підібрати таку класифікаційну модель, коли всі кластери інтерпретуватимуться однозначно. З метою демонстрації можливостей процедури кластерного аналізу для кластеризації змінних ми перебудовуватимемо кластерну модель, а обмежимося лише сказаним вище.

Необхідно відзначити, що, незважаючи на простоту проведення кластерного аналізу в порівнянні з факторним, практично в усіх випадках з маркетингових досліджень факторний аналіз виявляється швидше і ефективніше кластерного. Тому для класифікації (скорочення) змінних ми рекомендуємо використовувати саме факторний аналіз і залишити застосування кластерного аналізу для класифікації респондентів.

Класифікаційний аналіз є, мабуть, одним із найскладніших, з погляду непідготовленого користувача, статистичних інструментів. З цим пов'язана його дуже мала поширеність у маркетингових компаніях. Разом з тим, саме дана група статистичних методів є і однією з найбільш корисних для практиків у галузі маркетингових досліджень.

Кластерний аналізз'явився порівняно недавно - 1939 року. Його запропонував учений К. Тріон. Дослівно термін "кластер" у перекладі з англійської "cluster" означає кисть, потік, пучок, група.

Особливо бурхливий розвиток кластерного аналізу відбувся у 60-х роках минулого століття. Причинами цього були поява швидкісних комп'ютерів та визнання класифікацій фундаментальним методом наукових досліджень про.

Кластерний аналіз - це метод багатовимірного статистичного дослідження, до якого належить збір даних, що містять інформацію про вибіркові об'єкти, та впорядкування їх у порівняно однорідні, схожі між собою групи.

Отже, сутність кластерного аналізу полягає у здійсненні класифікації об'єктів дослідження з допомогою численних обчислювальних процедур. У результаті утворюються " кластери " чи групи дуже схожих об'єктів. На відміну від інших методів, цей вид аналізу дає можливість класифікувати об'єкти не за однією ознакою, а кількома одночасно. Для цього вводяться відповідні показники, що характеризують певний рівень близькості по всіх класифікаційних параметрах.

Мета кластерного аналізу полягає у пошуку існуючих структур, виявляється у освіті груп схожих між собою об'єктів - кластерів. У той самий час його дія і у привнесенні структури досліджувані об'єкти. Це означає, що методи кластеризації необхідні для виявлення структури даних, яку нелегко знайти при візуальному обстеженні або за допомогою експертів.

Основними завданнями кластерного аналізу є:

Розробка типології чи класифікації досліджуваних об'єктів;

Дослідження та визначення прийнятних концептуальних схем угруповання об'єктів;

Висунення гіпотез виходячи з результатів дослідження даних;

Перевірка гіпотез чи типи (групи), які були виділені певним чином, мають місце в наявних даних.

Кластерний аналіз вимагає здійснення таких послідовних кроків:

1) проведення вибірки об'єктів для кластеризації;

2) визначення безлічі ознак, за якими оцінюватимуться відібрані об'єкти;

3) оцінка ступеня подібності об'єктів;

4) застосування кластерного аналізу до створення груп подібних об'єктів;

5) перевірка достовірності результатів кластерного рішення.

Кожен із цих кроків відіграє значну роль у практичному здійсненні аналізу.

Визначення безлічі ознак, які покладаються в основу оцінки об'єктів (), у кластерному аналізі є одним із найважливіших завдань дослідження. Мета цього кроку має полягати у визначенні сукупності змінних ознак, які найкраще відбиває поняття подібності. Ці ознаки мають вибиратися з урахуванням теоретичних положень, покладених основою класифікації, і навіть мети дослідження.

При визначенні міри подібності об'єктів кластерного аналізу використовуються чотири види коефіцієнтів: коефіцієнти кореляції, показники відстаней, коефіцієнти асоціативності та імовірнісні, коефіцієнти подібності. Кожен із цих показників має свої переваги та недоліки, які попередньо потрібно врахувати. На практиці найбільшого поширення у сфері соціальних та економічних наук набули коефіцієнти кореляції та відстаней.

В результаті аналізу сукупності вхідних даних створюються однорідні групи таким чином, що об'єкти всередині цих груп подібні між собою за деяким критерієм, а об'єкти різних груп відрізняються один від одного.

Кластеризація може здійснюватися двома основними способами, зокрема з допомогою ієрархічних чи ітераційних процедур.

Ієрархічні процедури- Послідовні дії щодо формування кластерів різного рангу, підпорядкованих між собою за чітко встановленою ієрархією. Найчастіше ієрархічні процедури

здійснюються шляхом агломеративної (об'єднавчих) дій. Вони передбачають такі операції:

Послідовне поєднання подібних об'єктів з утворенням матриці подібності об'єктів;

Побудова дендрограми (деревоподібної діаграми), що відображає послідовне об'єднання об'єктів у кластери;

Формування за досліджуваною сукупністю окремих кластерів першому початковому етапі аналізу та об'єднання всіх об'єктів у одну велику групу на завершальному етапі аналізу.

Ітераційні процедури полягають у освіті первинних даних однорівневих (одного рангу) ієрархічно не підпорядкованих між собою кластерів.

Одним із найпоширеніших способів проведення ітераційних процедур ось уже понад сорок років виступає метод k-середніх (розроблений в 1967 Дж. Маккуїн). Застосування його вимагає здійснення наступних кроків:

Поділ вихідних даних досліджуваної сукупності на задану кількість кластерів

Обчислення багатовимірних середніх (центрів тяжіння) виділених кластерів

Розрахунки Евклідової відстані кожної одиниці сукупності певних центрів тяжіння кластерів та побудова матриці відстаней, заснована на метриці відстаней. Використовують різні метрики відстаней, наприклад Евклідова відстань (проста та зважена), Манхеттенський, Чебишева, Мінковського, Махалонобіса тощо;

Визначення нових центів тяжіння та нових кластерів.

Найбільш відомими та широко застосовуваними методами

формування кластерів є:

Єдиного зв'язку;

Повного зв'язку;

Середній зв'язок;

Метод Уорд.

Метод одиничного зв'язку (метод близького сусіда) передбачає приєднання одиниці сукупності до кластера, якщо вона близька (знаходиться на одному рівні подібності) хоча б одного представника цього кластера.

Метод повного зв'язку (далекого сусіда) вимагає певного рівня подібності об'єкта (не менше граничного рівня), передбачається включити до кластера, з будь-яким іншим.

Метод середнього зв'язку ґрунтується на використанні середньої відстані між кандидатом на включення до кластера та представниками наявного кластера.

Відповідно до методу Уорда приєднання об'єктів до кластерів здійснюється у разі мінімального приросту внутрішньогрупової суми квадратів відхилень. Завдяки цьому утворюються кластери приблизно одного розміру, які мають форму гіперсфери.

Кластерний аналіз, як і інші методи вивчення стохастичного зв'язку, потребує численних складних розрахунків, які краще здійснювати за допомогою сучасних інформаційних систем, у тому числі з використанням програмного продукту Statistica 6.0.

Дослідники застосовують кластерний аналіз у різних дослідженнях, наприклад щодо рівня добробуту населення країн СНД (О. Мірошниченко). Спочатку для цього було відібрано 16 статистичних основних соціально-економічних показників, що характеризують рівень життя громадян у різних країнахСНД:

1) ВВП для душу населення, дол. США;

2) середньомісячна номінальна вести, рус. руб.;

3) середньомісячний обсяг пенсії, рус. руб.;

6) частка витрат на купівлю продуктів харчування у споживчих витратах домогосподарств, відсотків;

7) споживання м'яса та м'ясопродуктів у середньому за рік у розрахунку на одну особу, кг;

8) кількість пшеничного хліба, що можна було б придбати на суму середнього готівкового грошового доходу на місяць (на одну особу), кг;

9) загальний коефіцієнт народжуваності (на 1000 осіб);

10) коефіцієнт смертності немовлят (померло дітей віком до одного року на 1000 народжених)

11) кількість зайнятих у відсотках до економічно активного населення;

12) забезпеченість населення житлом у середньому (на одну особу), м2 загальної площі;

13) кількість хворих на злоякісні новоутворення (на 100 000 населення), осіб;

14) кількість зареєстрованих злочинів (на 100 000 населення), од.;

15) викиди шкідливих речовин в атмосферу стаціонарними джерелами забруднення (на одну особу), кг;

16) відвідування музеїв у середньому протягом року (на 1000 населення), од. (Табл. 12.7).

Кратер аналіз здійснюється на основі порівнянних і односпрямованих показників. Тому показники вхідної матриці слід спочатку стандартизувати. Одним із поширених способів для неоднорідних сукупностей (зокрема у нашому прикладі) є стандартизація показників шляхом відношення відхилення - а до одиниці стандартизації q. І тут одиницею стандартизації буде фактичний варіаційний розмах.

При цьому, як показано у наукових працях вчених-економістів AM Єрін та С.С. Ващаєв, для показників-стимуляторів береться, тоді як для показників-дестимуляторів. Виходячи з цього, стандартизовані значення показників розраховуються за формулами:

Для показників стимуляторів:;

Для показників-дестимулятори:.

де - стандартизоване значення i-ro показника для у-ї одиниці сукупності;

Вхідне значення i-го показника для j-ї одиницісукупності.

Отримані стандартизовані вхідні дані наведено в табл.12.8.

Азербайджан

Білорусь

Казахстан

Киргизстан

Таджикистан

Таблиця 12.8. Матриця стандартизованих вхідних даних

Азербайджан

Білорусь

Казахстан

Киргизстан

Таджикистан

Наступним кроком кластерного аналізу має бути побудова матриці відстаней, передбачає передусім вибір метрики відстаней. На практиці застосовують різні метрики відстаней: Евклідова, виважена Евклідова, Манхеттенського, Чебишева, Мінковського, Махалонобіса D 2 та ін У цьому випадку розподіл країн СНД на групи можна здійснити за допомогою Манхеттенської відстані. Вона розрахована за формулою

,

де і - стандартизовані значення i-го показника j-йі k-й одиницьсукупності.

З обраної міри відстаней, можна побудувати симетричну матрицю відстаней між країнами СНД (табл. 12.9).

Країни СНД

Азербайджан

Білорусь

Казахстан

Киргизстан

Таджикистан

Азербайджан

Білорусь

Казахстан

Киргизстан

Таджикистан

Наступним етапом аналізу є вибір методу об'єднання країн СНД у кластери. Як зазначалося, найбільш поширеними методами формування кластерів є:

Єдиного зв'язку;

Повного зв'язку;

Середній зв'язок;

Метод Уорд.

Скористаємося методом Уорда, який дозволяє мінімізувати внутрішньогрупову дисперсію усередині кластерів. Відповідно до цього методу, приєднання об'єктів до кластерів здійснюється за мінімального приросту внутрішньогрупової суми квадратів відхилень. Це сприяє утворенню кластерів приблизно однакового розміру, які мають форму гіперсфери. Дендрограма результатів кластерного аналізу показано на рис 12.5.

Мал. 12.5. Дендрограма результатів кластерного аналізу країн СНД за рівнем життя населення

Як очевидно з малюнка, вертикальна вісь дендрограми відбиває країни СНД, а горизонтальна є відстанню об'єднання.

З метою визначення оптимальної кількості кластерів слід побудувати графік списку об'єднання регіонів України у кластери, відклавши на вертикальній осі його відстані, а на горизонтальній - крок об'єднання (рис. 12.6).

Мал. 12.6. Графік списку об'єднання країн СНД у кластери

Як бачимо оптимальним, згідно з встановленими вимогами оптимальності, є розбиття країн СНД за рівнем життя населення на три кластери. Зазначимо, що оптимальною вважається така кількість кластерів, що дорівнює різниці кількості спостережень (у нашому прикладі - 9) та кількості кроків, після яких відстань об'єднання зростає стрибкоподібно (у нашому прикладі - 6).

Таким чином, країни СНД поділені на три кластери. До першого кластера увійшли Азербайджан і Таджикистан, до іншого - Білорусь, Україна, Росія та Казахстан, і третього - Вірменія, Молдова та Киргизстан.

За допомогою методу k-середні обчислені середні значення показників для кожного із трьох кластерів (рис. 12.7).

Мал. 12.7. Середні значення показників кожного кластера

Як показано на рис. 12.7 до першого кластера входять країни, в яких середні значення восьми показників менші, ніж в інших кластерах.

Так, Азербайджан і Таджикистан, що належать до першого кластера, мають низькі показники ВВП на душу населення, середньомісячної. заробітної плати(номінальною), пенсії, споживання м'яса та м'ясопродуктів, забезпеченості житлом. Однак у цих країнах вищі інші середні показники, зокрема: індекс інвестицій в основний капітал, індекс споживчих цін, коефіцієнт народжуваності.

Країни, віднесені до другого кластера, відзначаються високими параметрами економічної складової рівня життя, але, на жаль, низькою народжуваністю, високим рівнем захворюваності на злоякісні новоутворення, злочинності, великими викидами шкідливих речовин в атмосферу стаціонарними джерелами забруднення, що підтверджується відповідністю.

Країни третього кластера характеризуються низькими показниками: індексу інвестицій в основний капітал, рівня зайнятості населення у громадському господарстві, зареєстрованих злочинів, що свідчить про їхню низьку інвестиційну привабливість та значне безробіття.

Отже, кластерний аналіз, за ​​оцінкою вчених, має велике значення у проведенні аналітичних досліджень завдяки можливості перетворити великий обсяг різнобічної інформації на впорядкований, компактний вигляд. Це сприяє підвищенню рівня наочності, ясності та сприйняття результатів аналізу, а також створює підґрунтя для прогнозування.

Кластерний аналіз

Більшість дослідників схиляються до того що, що вперше термін «кластерний аналіз» (англ. cluster- гроно, потік, пучок) був запропонований математиком Р.Тріоном. Згодом виникла низка термінів, які нині прийнято вважати синонімами терміна «кластерний аналіз»: автоматична класифікація; Ботріологія.

Кластерний аналіз - це багатовимірна статистична процедура, що виконує збір даних, що містять інформацію про вибірку об'єктів, і потім впорядковує об'єкти порівняно однорідні групи (кластери) (Q-кластеризація, або Q-техніка, власне кластерний аналіз). Кластер - група елементів, що характеризуються загальною якістю, основна мета кластерного аналізу - перебування груп подібних об'єктів у вибірці. Спектр застосування кластерного аналізу дуже широкий: його використовують в археології, медицині, психології, хімії, біології, державне управління, філології, антропології, маркетингу, соціології та інших дисциплінах Однак універсальність застосування призвела до появи великої кількості несумісних термінів, методів та підходів, що ускладнюють однозначне використання та несуперечливу інтерпретацію кластерного аналізу. Орлов А. І. пропонує розрізняти так:

Завдання та умови

Кластерний аналіз виконує такі основні завдання:

  • Розробка типології чи класифікації.
  • Вивчення корисних концептуальних схем групування об'єктів.
  • Породження гіпотез з урахуванням дослідження даних.
  • Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим чи іншим способом, присутні в наявних даних.

Незалежно від предмета вивчення застосування кластерного аналізу передбачає наступні етапи:

  • Вибір вибірки для кластеризації. Мається на увазі, що має сенс кластеризувати лише кількісні дані.
  • Визначення безлічі змінних, якими оцінюватимуться об'єкти у вибірці, тобто ознакового простору.
  • Обчислення значень тієї чи іншої міри подібності (чи відмінності) між об'єктами.
  • Застосування методу кластерного аналізу до створення груп подібних об'єктів.
  • Перевіряє достовірність результатів кластерного рішення.

Кластерний аналіз показує наступні вимоги до даних:

  1. показники не повинні корелювати між собою;
  2. показники не повинні суперечити теорії вимірів;
  3. розподіл показників має бути близьким до нормального;
  4. показники повинні відповідати вимогі «стійкості», під якою розуміється відсутність впливу їх значення випадкових чинників;
  5. вибірка має бути однорідною, не містити «викидів».

Можна зустріти опис двох фундаментальних вимог до даних - однорідність і повнота:

Однорідність вимагає, щоб усі сутності, подані у таблиці, були однією природою. Вимога повноти полягає в тому, щоб множини Iі Jпредставляли повний опис проявів аналізованого явища. Якщо розглядається таблиця у якій I- сукупність, а J- безліч змінних, що описують цю сукупність, має бути представницькою вибіркою з досліджуваної сукупності, а система характеристик Jмає давати задовільний векторний подання індивідів iз погляду дослідника.

Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує «ремонту» - викладені вимоги виконуються автоматично самою процедурою факторного моделювання (є ще одна перевага - z-стандартизація без негативних наслідківдля вибірки; якщо її проводити безпосередньо для кластерного аналізу, вона може спричинити зменшення чіткості поділу груп). В іншому випадку вибірку потрібно коригувати.

Типологія задач кластеризації

Типи вхідних даних

У науці застосовується кілька алгоритмів обробки вхідних даних. Аналіз шляхом порівняння об'єктів, виходячи з ознак, (найпоширеніший у біологічних науках) називається Q-Типом аналізу, а у разі порівняння ознак, на основі об'єктів - R-Типом аналізу. Існують спроби використання гібридних типів аналізу (наприклад, RQ-Аналіз), але дана методологія ще належним чином не розроблена.

Цілі кластеризації

  • Розуміння даних шляхом виявлення кластерної структури. Розбиття вибірки на групи подібних об'єктів дозволяє спростити подальшу обробку даних та прийняття рішень, застосовуючи до кожного кластера свій метод аналізу (стратегія «розділяй і володарюй»).
  • Стиснення даних. Якщо вихідна вибірка надмірно велика, можна скоротити її, залишивши по одному найбільш типовому представнику від кожного кластера.
  • Виявлення новизни (англ. novelty detection). Виділяються нетипові об'єкти, які не вдається приєднати до жодного з кластерів.

У першому випадку кількість кластерів намагаються зробити менше. У другому випадку важливіше забезпечити високий ступінь подібності об'єктів усередині кожного кластера, а кластерів може бути скільки завгодно. У третьому випадку найбільший інтерес становлять окремі об'єкти, які не вписуються в жодний із кластерів.

У всіх цих випадках може застосовуватися ієрархічна кластеризація, коли великі кластери дробляться на дрібніші, ті в свою чергу дробляться ще дрібніше, і т. д. Такі завдання називаються задачами таксономії. Результатом таксономії є деревоподібна ієрархічна структура. У цьому кожен об'єкт характеризується перерахуванням всіх кластерів, яким належить, зазвичай від великого до дрібного.

Методи кластеризації

Загальноприйнятої класифікації методів кластеризації не існує, але можна відзначити солідну спробу В. С. Берікова та Г. С. Лбова. Якщо узагальнити різні класифікації методів кластеризації, можна виділити ряд груп (деякі методи можна зарахувати відразу до кількох груп і тому пропонується розглядати цю типізацію як деяке наближення до реальної класифікації методів кластеризації):

  1. Імовірнісний підхід. Передбачається, що кожен аналізований об'єкт відноситься до одного з класів. Деякі автори (наприклад, А. І. Орлов) вважають, що ця група зовсім не відноситься до кластеризації і протиставляють її під назвою «дискримінація», тобто вибір віднесення об'єктів до однієї з відомих груп (навчальних вибірок).
  2. Підходи на основі систем штучного інтелекту. Дуже умовна група, оскільки методів AI дуже багато і методично вони дуже різні.
  3. Логічний підхід. Побудова дендрограм здійснюється за допомогою дерева рішень.
  4. Теоретико-графовий підхід.
    • Графові алгоритми кластеризації
  5. Ієрархічний підхід. Передбачається наявність вкладених груп (кластерів різного порядку). Алгоритми у свою чергу поділяються на агломеративні (об'єднувальні) та дивізивні (розділяючі). За кількістю ознак іноді виділяють монотетичні та політетичні методи класифікації.
    • Ієрархічна дивізивна кластеризація чи таксономія. Завдання кластеризації розглядаються у кількісній таксономії.
  6. Інші методи. Не увійшли до попередніх груп.
    • Статистичні алгоритми кластеризації
    • Ансамбль кластеризаторів
    • Алгоритми сімейства KRAB
    • Алгоритм, заснований на методі просіювання
    • DBSCAN та ін.

Підходи 4 і 5 іноді поєднують під назвою структурного або геометричного підходу, що має більшу формалізованість поняття близькості. Незважаючи на значні відмінності між перерахованими методами, всі вони спираються на вихідну. гіпотезу компактності»: у просторі об'єктів усі близькі об'єкти повинні відноситися до одного кластера, а всі різні об'єкти відповідно повинні знаходитись у різних кластерах.

Формальна постановка задачі кластеризації

Нехай – безліч об'єктів, – безліч номерів (імен, міток) кластерів. Задано функцію відстані між об'єктами. Є кінцева навчальна вибірка об'єктів. Потрібно розбити вибірку на непересічні підмножини, звані кластерамитак, щоб кожен кластер складався з об'єктів, близьких за метрикою, а об'єкти різних кластерів суттєво відрізнялися. При цьому кожному об'єкту приписується номер кластера.

Алгоритм кластеризації- це функція, яка будь-якому об'єкту ставить у відповідність номер кластера. Безліч у деяких випадках відоме заздалегідь, проте частіше ставиться завдання визначити оптимальну кількість кластерів, з точки зору того чи іншого критерію якостікластеризації.

Кластеризація (навчання без вчителя) відрізняється від класифікації (навчання з вчителем) тим, що мітки вихідних об'єктів спочатку не задані, і навіть може бути невідомо безліч.

Розв'язання завдання кластеризації принципово неоднозначне, тому є кілька причин (як вважає ряд авторів):

  • не існує однозначно кращого критерію якості кластеризації. Відомий цілий ряд евристичних критеріїв, а також низка алгоритмів, які не мають чітко вираженого критерію, але здійснюють досить розумну кластеризацію «за побудовою». Усі вони можуть давати різні результати. Отже, визначення якості кластеризації потрібен експерт предметної області, який міг оцінити свідомість виділення кластерів.
  • число кластерів, як правило, невідомо заздалегідь і встановлюється відповідно до певного суб'єктивного критерію. Це справедливо лише методів дискримінації, оскільки у методах кластеризації виділення кластерів йде рахунок формалізованого підходу з урахуванням заходів близькості.
  • Результат кластеризації істотно залежить від метрики, вибір якої, зазвичай, також суб'єктивний і визначається експертом. Але варто зазначити, що є низка рекомендацій щодо вибору заходів близькості для різних завдань.

Застосування

У біології

У біології кластеризація має безліч додатків у різних областях. Наприклад, в біоінформатиці за допомогою неї аналізуються складні мережі взаємодіючих генів, що складаються часом із сотень або навіть тисяч елементів. Кластерний аналіз дозволяє виділити підмережі, вузькі місця, концентратори та інші приховані властивості системи, що вивчається, що дозволяє в кінцевому рахунку дізнатися внесок кожного гена у формування досліджуваного феномену.

В галузі екології широко застосовується для виділення просторово однорідних груп організмів, угруповань тощо. Рідше методи кластерного аналізу застосовуються для дослідження спільнот у часі. Гетерогенність структури угруповань призводить до виникнення нетривіальних методів кластерного аналізу (наприклад, метод Чекановського).

Загалом варто відзначити, що історично склалося так, що як міри близькості в біології частіше використовуються заходи подібності, а не заходи відмінності (відстань).

У соціології

При аналізі результатів соціологічних дослідженьрекомендується здійснювати аналіз методами ієрархічного агломеративного сімейства, саме шляхом Уорда, у якому всередині кластерів оптимізується мінімальна дисперсія, у результаті створюються кластери приблизно рівних розмірів. Метод Уорд найбільш вдалий для аналізу соціологічних даних. Як міра відмінності краща квадратична евклідова відстань, яка сприяє збільшенню контрастності кластерів. Головним підсумком ієрархічного кластерного аналізу є дендрограма або «сусульчаста діаграма». При її інтерпретації дослідники стикаються з проблемою того ж таки роду, що і тлумачення результатів факторного аналізу - відсутністю однозначних критеріїв виділення кластерів. Як головні рекомендується використовувати два способи - візуальний аналіз дендрограми та порівняння результатів кластеризації, виконаної різними методами.

Візуальний аналіз дендрограми передбачає "обрізання" дерева на оптимальному рівніподібність елементів вибірки. «Виноградну гілку» (термінологія Олдендерфера М. С. та Блешфілда Р. К. ) доцільно «обрізати» на позначці 5 шкали Rescaled Distance Cluster Combine, таким чином буде досягнуто 80% рівня подібності. Якщо виділення кластерів по цій мітці утруднено (на ній відбувається злиття кількох дрібних кластерів в один великий), можна вибрати іншу мітку. Така методика пропонується Олдендерфером та Блешфілдом.

Тепер постає питання стійкості прийнятого кластерного рішення. Насправді, перевірка стійкості кластеризації зводиться до перевірки її достовірності. Тут існує емпіричне правило - стійка типологія зберігається за зміни методів кластеризації. Результати ієрархічного кластерного аналізу можна перевіряти ітеративним кластерним аналізом методом k-средних. Якщо порівнювані класифікації груп респондентів мають частку збігів понад 70 % (більше 2/3 збігів), то кластерне рішення приймається.

Перевірити адекватність рішення, не вдаючись до іншого виду аналізу, не можна. Принаймні у теоретичному плані цю проблему не вирішено. У класичній роботі Олдендерфера та Блешфілда «Кластерний аналіз» докладно розглядаються і в результаті відкидаються додаткові п'ять методів перевірки стійкості:

В інформатиці

  • Кластеризація результатів пошуку - використовується для «інтелектуального» угруповання результатів при пошуку файлів, веб-сайтів, інших об'єктів, надаючи користувачеві можливість швидкої навігації, вибору явно більш релевантного підмножини і виключення явно менш релевантного - що може підвищити юзабіліті інтерфейсу в порівнянні з виведенням простого сортованого за релевантністю списку.
    • Clusty - кластеризуюча пошукова машина компанії Vivísimo
    • Nigma – російська пошукова система з автоматичною кластеризацією результатів
    • Quintura – візуальна кластеризація у вигляді хмари ключових слів
  • Сегментація зображень (англ. image segmentation) - Кластеризація може бути використана для розбиття цифрового зображення на окремі області з метою виявлення кордонів (англ. edge detection) чи розпізнавання об'єктів .
  • Інтелектуальний аналіз даних (англ. data mining)- Кластеризація в Data Mining набуває цінності тоді, коли вона виступає одним із етапів аналізу даних, побудови закінченого аналітичного рішення. Аналітику часто легше виділити групи подібних об'єктів, вивчити їх особливості і побудувати кожної групи окрему модель, ніж створювати одну загальну модельвсім даних. Таким прийомом постійно користуються у маркетингу, виділяючи групи клієнтів, покупців, товарів хороших і розробляючи кожному з них окрему стратегію.

Див. також

Примітки

Посилання

Російською мовою
  • www.MachineLearning.ru - професійний вікі-ресурс, присвячений машинному навчанню та інтелектуальному аналізу даних
На англійській мові
  • COMPACT - Comparative Package for Clustering Assessment. A free Matlab package, 2006.
  • P. Berkhin, Survey of Clustering Data Mining Techniques, Accrue Software, 2002.
  • Jain, Murty і Flynn: Data Clustering: A Review, ACM Comp. Surv., 1999.
  • для іншого представництва hierarchical, k-means and fuzzy c-means бачите це введення в clustering . Also has an explanation на mixture of Gaussians.
  • David Dowe, Mixture Modelling page- інші clustering і mixture model links.
  • a tutorial on clustering
  • На сайті електронної пошти: Information Theory, Inference, and Learning Algorithms , David J.C. MacKay includes chapters on k-means clustering, soft k-means clustering, і derivations including the E-M algorithm і variational view of E-M algorithm.
  • "The Self-Organized Gene", tutorial explaining clustering через competitive learning and self-organizing maps.
  • kernlab - R package for kernel based machine learning (includes spectral clustering implementation)
  • Tutorial - Tutorial with introduction of Clustering Algorithms (k-means, fuzzy-c-means, hierarchical, mixture of gaussians) + деякі interactive demos (java applets)
  • Data Mining Software - Data mining software використовується для clustering techniques.
  • Java Competitve Learning Application Дозволяється розглянути Neural Networks for clustering. Written in Java. Complete with all source code.
  • Machine Learning Software - Also contains much clustering software.