Klasyfikacja analizy skupień na podstawie zbudowanego modelu. Zastosowanie analizy skupień w Microsoft Excel. Zadania rozwiązywane metodami Data Mining

30.03.2020

Jednym z narzędzi rozwiązywania problemów gospodarczych jest analiza skupień. Za jego pomocą klastry i inne obiekty tablicy danych są klasyfikowane w grupy. Ta technika może być stosowana w Program Excel. Zobaczmy, jak to się robi w praktyce.

Za pomocą analizy skupień możliwe jest wylosowanie próby według badanej cechy. Jego głównym zadaniem jest rozbicie tablicy wielowymiarowej na jednorodne grupy. Jako kryterium grupowania stosuje się sparowany współczynnik korelacji lub odległość euklidesową między obiektami zgodnie z danym parametrem. Najbliżej sobie wartości są zgrupowane razem.

Chociaż najczęściej ten gatunek analiza jest wykorzystywana w ekonomii, może być również wykorzystywana w biologii (do klasyfikacji zwierząt), psychologii, medycynie i wielu innych dziedzinach działalności człowieka. Do tych celów można zastosować analizę skupień standardowy zestaw Narzędzia Excela.

Przykład użycia

Posiadamy pięć obiektów, które charakteryzują się dwoma badanymi parametrami - x I tak.

analiza skupień

Większość badaczy skłonna jest sądzić, że po raz pierwszy termin „analiza skupień” (pol. grupa- pęczek, skrzep, pęczek) zaproponował matematyk R. Trion. Następnie pojawiło się kilka terminów, które są obecnie uważane za synonimy terminu „analiza skupień”: automatyczna klasyfikacja; botryologia.

Analiza skupień to wielowymiarowa procedura statystyczna, która gromadzi dane zawierające informacje o próbce obiektów, a następnie porządkuje obiekty w stosunkowo jednorodne grupy (skupienia) (klastrowanie Q lub technika Q, właściwa analiza skupień). Klaster – grupa elementów charakteryzujących się wspólną właściwością, głównym celem analizy skupień jest znalezienie w próbie grup podobnych obiektów. Zakres zastosowań analizy skupień jest bardzo szeroki: znajduje zastosowanie w archeologii, medycynie, psychologii, chemii, biologii, administracji publicznej, filologii, antropologii, marketingu, socjologii i innych dyscyplinach. Jednak uniwersalność zastosowania doprowadziła do pojawienia się dużej liczby niekompatybilnych terminów, metod i podejść, które utrudniają jednoznaczne stosowanie i konsekwentną interpretację analizy skupień. Orłow A. I. sugeruje rozróżnienie w następujący sposób:

Zadania i warunki

Analiza skupień wykonuje następujące czynności główne zadania:

  • Opracowanie typologii lub klasyfikacji.
  • Poznawanie przydatnych schematów pojęciowych do grupowania obiektów.
  • Generowanie hipotez na podstawie eksploracji danych.
  • Testowanie hipotez lub badania w celu ustalenia, czy typy (grupy) zidentyfikowane w ten czy inny sposób są rzeczywiście obecne w dostępnych danych.

Niezależnie od przedmiotu badań zastosowanie analizy skupień wiąże się z: następne kroki:

  • Próbkowanie do grupowania. Zrozumiałe jest, że sensowne jest grupowanie tylko danych ilościowych.
  • Definicja zbioru zmiennych, według których będą oceniane obiekty w próbie, czyli przestrzeni cech.
  • Obliczanie wartości jednej lub drugiej miary podobieństwa (lub różnicy) między obiektami.
  • Zastosowanie metody analizy skupień do tworzenia grup podobnych obiektów.
  • Walidacja wyników rozwiązania klastrowego.

Analiza skupień przedstawia: wymagania dotyczące danych:

  1. wskaźniki nie powinny być ze sobą skorelowane;
  2. wskaźniki nie powinny być sprzeczne z teorią pomiarów;
  3. rozkład wskaźników powinien być zbliżony do normalnego;
  4. wskaźniki muszą spełniać wymóg „stabilności”, co oznacza brak wpływu na ich wartości czynników losowych;
  5. próbka powinna być jednorodna, nie może zawierać „odstających”.

Możesz znaleźć opis dwóch podstawowych wymagań dotyczących danych - jednolitość i kompletność:

Jednorodność wymaga, aby wszystkie byty przedstawione w tabeli miały ten sam charakter. Wymogiem kompletności jest to, że zestawy i I J przedstawił pełny opis przejawów rozważanego zjawiska. Jeśli weźmiemy pod uwagę stół, w którym i to kolekcja i J- zbiór zmiennych opisujących tę populację, wówczas powinna to być próba reprezentatywna z badanej populacji, oraz układ cech J powinna dawać zadowalającą wektorową reprezentację indywiduów i z punktu widzenia badacza.

Jeżeli analiza skupień poprzedzona jest analizą czynnikową, to próba nie musi być „naprawiana” – stawiane wymagania są wykonywane automatycznie przez samą procedurę modelowania czynnikowego (jest jeszcze jedna zaleta – standaryzacja z bez negatywnych konsekwencji dla próby; jeśli jest przeprowadzany bezpośrednio do analizy skupień, może prowadzić do zmniejszenia klarowności wyodrębnienia grup). W przeciwnym razie próbkę należy skorygować.

Typologia problemów klastrowania

Typy wejść

W nowoczesna nauka Stosuje się kilka algorytmów przetwarzania danych wejściowych. Analiza poprzez porównywanie obiektów na podstawie cech (najczęściej występujących w naukach biologicznych) nazywa się Q- rodzaj analizy, a w przypadku porównania cech na podstawie obiektów - r- rodzaj analizy. Podejmowane są próby wykorzystania hybrydowych typów analizy (np. RQ analizy), ale ta metodologia nie została jeszcze właściwie opracowana.

Cele grupowania

  • Zrozumienie danych poprzez identyfikację struktury klastrów. Podział próby na grupy podobnych obiektów pozwala na uproszczenie dalszego przetwarzania danych i podejmowania decyzji poprzez zastosowanie własnej metody analizy do każdego klastra (strategia „dziel i rządź”).
  • Kompresja danych. Jeśli początkowa próba jest zbyt duża, można ją zmniejszyć, pozostawiając jednego z najbardziej typowych przedstawicieli z każdego skupienia.
  • wykrywanie nowości. wykrywanie nowości). Wybierane są obiekty nietypowe, których nie można dołączyć do żadnego z klastrów.

W pierwszym przypadku starają się zmniejszyć liczbę klastrów. W drugim przypadku ważniejsze jest zapewnienie wysokiego stopnia podobieństwa obiektów w ramach każdego skupienia i może być dowolna liczba skupień. W trzecim przypadku największe zainteresowanie wzbudzają poszczególne obiekty, które nie mieszczą się w żadnym ze skupień.

We wszystkich tych przypadkach można zastosować grupowanie hierarchiczne, gdy duże klastry są dzielone na mniejsze, które z kolei są dzielone na jeszcze mniejsze itd. Takie zadania nazywane są zadaniami taksonomii. Wynikiem taksonomii jest struktura hierarchiczna przypominająca drzewo. Dodatkowo każdy obiekt charakteryzuje się wyliczeniem wszystkich skupień, do których należy, zwykle od dużych do małych.

Metody klastrowania

Nie ma ogólnie przyjętej klasyfikacji metod grupowania, ale można zauważyć solidną próbę V.S. Berikova i G.S. Lbova. Podsumowując różne klasyfikacje metody grupowania można wyróżnić wiele grup (niektóre metody można przypisać do kilku grup jednocześnie, dlatego proponuje się traktować tę typizację jako pewne przybliżenie do rzeczywistej klasyfikacji metod grupowania):

  1. Podejście probabilistyczne. Zakłada się, że każdy rozważany obiekt należy do jednej z k klas. Niektórzy autorzy (na przykład A. I. Orłow) uważają, że ta grupa w ogóle nie należy do grupowania i sprzeciwiają się jej pod nazwą „dyskryminacja”, czyli wybór przypisywania obiektów do jednej ze znanych grup (prób szkoleniowych).
  2. Podejścia oparte na systemach sztucznej inteligencji. Bardzo warunkowa grupa, ponieważ metod AI jest wiele i metodycznie bardzo się różnią.
  3. logiczne podejście. Konstrukcję dendrogramu przeprowadza się za pomocą drzewa decyzyjnego.
  4. Podejście grafowo-teoretyczne.
    • Algorytmy grupowania grafów
  5. Podejście hierarchiczne. Zakłada się obecność grup zagnieżdżonych (klastrów różnych rzędów). Z kolei algorytmy dzielą się na aglomeracyjne (ujednolicające) i dzielące (rozdzielające). W zależności od liczby cech czasami rozróżnia się monotetyczne i politetyczne metody klasyfikacji.
    • Hierarchiczne grupowanie działów lub taksonomia. Problemy klastrowania są rozważane w taksonomii ilościowej.
  6. Inne metody. Nie ujęte w poprzednich grupach.
    • Statystyczne algorytmy grupowania
    • Zespół klasterów
    • Algorytmy rodziny KRAB
    • Algorytm oparty na metodzie przesiewania
    • DBSCAN itp.

Podejścia 4 i 5 są czasami łączone pod nazwą podejścia strukturalnego lub geometrycznego, które ma bardziej sformalizowane pojęcie bliskości. Pomimo znacznych różnic między wymienionymi metodami, wszystkie opierają się na oryginalnych " hipoteza zwartości»: w przestrzeni obiektów wszystkie bliskie obiekty muszą należeć do tego samego skupienia, a wszystkie różne obiekty, odpowiednio, muszą należeć do różnych skupień.

Formalne stwierdzenie problemu klastrowania

Niech będzie zbiorem obiektów, zbiorem liczb (nazw, etykiet) skupień. Podana jest funkcja odległości między obiektami. Istnieje skończony zbiór uczących obiektów. Wymagane jest podzielenie próbki na nienakładające się podzbiory, zwane klastry, tak aby każdy klaster składał się z obiektów zbliżonych do metryki , a obiekty z różnych klastrów znacznie się różnią. W takim przypadku każdemu obiektowi przypisywany jest numer klastra.

Algorytm klastrowania to funkcja, która kojarzy dowolny obiekt z numerem klastra. Zbiór w niektórych przypadkach jest znany z góry, ale częściej zadaniem jest określenie optymalnej liczby klastrów, z punktu widzenia jednego lub drugiego kryteria jakości grupowanie.

Grupowanie (uczenie nienadzorowane) różni się od klasyfikacji (uczenie nadzorowane) tym, że etykiety oryginalnych obiektów nie są początkowo ustawione, a sam zestaw może być nawet nieznany.

Rozwiązanie problemu grupowania jest zasadniczo niejednoznaczne, a powodów takiego stanu rzeczy jest kilka (według wielu autorów):

  • nie ma jednoznacznie najlepszego kryterium jakości tworzenia klastrów. Znanych jest szereg kryteriów heurystycznych, a także szereg algorytmów, które nie mają jasno zdefiniowanego kryterium, ale przeprowadzają dość rozsądne grupowanie „według konstrukcji”. Wszyscy mogą dać różne wyniki. Dlatego do określenia jakości klasteryzacji potrzebny jest ekspert w danej dziedzinie, który mógłby ocenić sensowność doboru klastrów.
  • liczba klastrów jest zwykle z góry nieznana i ustalana według jakiegoś subiektywnego kryterium. Dotyczy to tylko metod dyskryminacji, ponieważ w metodach grupowania klastry są wybierane przy użyciu sformalizowanego podejścia opartego na miarach bliskości.
  • wynik grupowania w znacznym stopniu zależy od metryki, której wybór z reguły jest również subiektywny i determinowany przez eksperta. Warto jednak zauważyć, że istnieje szereg zaleceń dotyczących wyboru mierników zbliżeniowych do różnych zadań.

Wniosek

W biologii

W biologii tworzenie klastrów ma wiele zastosowań w wielu różnych dziedzinach. Na przykład w bioinformatyce służy do analizy złożonych sieci oddziałujących ze sobą genów, składających się czasem z setek, a nawet tysięcy elementów. Analiza klastrów pozwala na identyfikację podsieci, wąskich gardeł, węzłów i innych ukrytych właściwości badanego systemu, co ostatecznie pozwala poznać wkład każdego genu w powstawanie badanego zjawiska.

W dziedzinie ekologii jest szeroko stosowany do identyfikacji przestrzennie jednorodnych grup organizmów, społeczności itp. Rzadziej metody analizy skupień są wykorzystywane do badania społeczności w czasie. Heterogeniczność struktury zbiorowości prowadzi do pojawienia się nietrywialnych metod analizy skupień (np. metoda Czekanowskiego).

Ogólnie rzecz biorąc, warto zauważyć, że z historycznego punktu widzenia miary podobieństwa są częściej używane jako miary bliskości w biologii niż miary różnicy (odległości).

W socjologii

Analizując wyniki badań socjologicznych, zaleca się przeprowadzenie analizy metodami hierarchicznej rodziny aglomeracyjnej, czyli metodą Warda, w której minimalna dyspersja jest optymalizowana w obrębie klastrów, w efekcie klastry o w przybliżeniu równej wielkości są tworzone. Metoda Warda jest najbardziej skuteczna w analizie danych socjologicznych. Miarą różnicy jest kwadratowa odległość euklidesowa, co przyczynia się do zwiększenia kontrastu skupień. Głównym wynikiem hierarchicznej analizy skupień jest dendrogram lub „diagram sopli”. Przy jego interpretacji badacze stają przed takim samym problemem, jak interpretacja wyników analizy czynnikowej – brakiem jednoznacznych kryteriów identyfikacji skupień. Jako główne zaleca się stosowanie dwóch metod - wizualnej analizy dendrogramu oraz porównania wyników grupowania różnymi metodami.

Wizualna analiza dendrogramu polega na „przycięciu” drzewa na optymalnym poziomie podobieństwa elementów próbki. „Gałąź winorośli” (terminologia Oldenderfer MS i Blashfield R.K.) powinna zostać „odcięta” na poziomie około 5 w skali Rescaled Distance Cluster Combine, osiągając w ten sposób 80% poziom podobieństwa. Jeśli wybór skupień według tej etykiety jest trudny (kilka małych skupisk łączy się w jedną dużą), możesz wybrać inną etykietę. Ta technika jest proponowana przez Oldenderfera i Blashfielda.

Teraz pojawia się pytanie o stabilność przyjętego rozwiązania klastrowego. W rzeczywistości sprawdzenie stabilności klastrowania sprowadza się do sprawdzenia jego niezawodności. Obowiązuje tu praktyczna zasada — w przypadku zmiany metod grupowania zachowana jest stabilna typologia. Wyniki hierarchicznej analizy skupień można zweryfikować za pomocą iteracyjnej analizy skupień metodą k-średnich. Jeżeli w porównywanych klasyfikacjach grup respondentów udział koincydencji przekracza 70% (ponad 2/3 koincydencji), to podejmowana jest decyzja klastra.

Nie da się sprawdzić adekwatności rozwiązania bez uciekania się do innego rodzaju analizy. Przynajmniej teoretycznie problem ten nie został rozwiązany. Klasyczna analiza skupień Oldenderfera i Blashfielda rozwija i ostatecznie odrzuca pięć dodatkowych metod testowania odporności:

W informatyce

  • Grupowanie wyników wyszukiwania – używane do „inteligentnego” grupowania wyników podczas wyszukiwania plików, witryn internetowych, innych obiektów, pozwalające użytkownikowi na szybką nawigację, wybranie podzbioru, który jest oczywiście bardziej trafny i wyklucza oczywiście mniej trafny – co może zwiększyć użyteczność interfejsu w porównaniu do wyjścia w postaci prostej posortowanej według trafności listy.
    • Clusty - wyszukiwarka klastrowa Vivísimo
    • Nigma - rosyjska wyszukiwarka z automatycznym grupowaniem wyników
    • Quintura - wizualne grupowanie w formie chmury słów kluczowych
  • Segmentacja obrazu segmentacja obrazu) - Grupowanie można wykorzystać do podzielenia obrazu cyfrowego na odrębne regiony w celu wykrycia krawędzi. wykrywanie krawędzi) lub rozpoznawanie obiektów.
  • Eksploracja danych eksploracja danych)- Klastrowanie w Data Mining staje się cenne, gdy działa jako jeden z etapów analizy danych, budując kompletne rozwiązanie analityczne. Analitykowi często łatwiej jest zidentyfikować grupy podobnych obiektów, zbadać ich cechy i zbudować osobny model dla każdej grupy, niż tworzyć jeden ogólny model dla wszystkich danych. Technika ta jest stale wykorzystywana w marketingu, wyróżniając grupy klientów, kupujących, towary i opracowując dla każdego z nich osobną strategię.

Zobacz też

Uwagi

Spinki do mankietów

Po rosyjsku
  • www.MachineLearning.ru - profesjonalne źródło wiki poświęcone uczeniu maszynowemu i eksploracji danych
Po angielsku
  • COMPACT — pakiet porównawczy do oceny klastrowania. Darmowy pakiet Matlab, 2006.
  • P. Berchin, Ankieta dotycząca technik eksploracji danych w klastrach, Gromadzenie oprogramowania, 2002.
  • Jain, Murty i Flynn: Grupowanie danych: przegląd, ACM komp. Surv., 1999.
  • inna prezentacja hierarchicznych, k-średnich i rozmytych c-średnich znajduje się we wstępie do grupowania . Zawiera również wyjaśnienie dotyczące mieszanki Gaussów.
  • Dawid Dowe, Strona modelowania mieszanin- inne łącza do klastrów i modeli mieszanych.
  • samouczek na temat klastrowania
  • Podręcznik on-line: Teoria informacji, wnioskowanie i algorytmy uczenia się, autorstwa Davida J.C. MacKay zawiera rozdziały dotyczące grupowania k-średnich, grupowania miękkich k-średnich i pochodnych, w tym E-M algorytm i widok wariacyjny algorytmu E-M.
  • „The Self-Organized Gene”, samouczek wyjaśniający tworzenie klastrów poprzez konkurencyjne uczenie się i samoorganizujące się mapy.
  • kernlab - pakiet R do uczenia maszynowego opartego na jądrze (zawiera implementację klastrowania widmowego)
  • Tutorial - Tutorial z wprowadzeniem algorytmów klastrowania (k-średnie, rozmyte-c-średnie, hierarchiczne, mieszanka gaussów) + kilka interaktywnych demonstracji (aplety java)
  • Oprogramowanie do eksploracji danych — oprogramowanie do eksploracji danych często wykorzystuje techniki klastrowania.
  • Java Competitive Learning Application Zestaw nienadzorowanych sieci neuronowych do tworzenia klastrów. Napisany w Javie. W komplecie z całym kodem źródłowym.
  • Oprogramowanie do uczenia maszynowego — zawiera również wiele oprogramowania do klastrowania.

W statystyce wyróżnia się dwa główne typy analizy skupień (oba reprezentowane w SPSS): hierarchiczna i k-średnich. W pierwszym przypadku zautomatyzowana procedura statystyczna niezależnie określa optymalną liczbę klastrów i szereg innych parametrów wymaganych do klastrowania.

analiza. Drugi rodzaj analizy ma istotne ograniczenia w praktycznym zastosowaniu – konieczne jest bowiem samodzielne określenie dokładnej liczby przydzielonych klastrów, wartości początkowych centrów każdego klastra (centroidów) oraz kilku innych statystyk. Przy analizie metodą k-średnich problemy te rozwiązuje się poprzez wstępne przeprowadzenie hierarchicznej analizy skupień, a następnie na podstawie jej wyników obliczenie modelu skupień metodą k-średnich, co w większości przypadków nie tylko nie upraszcza, ale wręcz przeciwnie, komplikuje pracę badacza (zwłaszcza nieprzygotowanego).

Ogólnie można powiedzieć, że ze względu na to, że hierarchiczna analiza skupień jest bardzo wymagająca pod względem zasobów sprzętowych komputera, do SPSS wprowadzono analizę skupień metodą k-średnich w celu przetwarzania bardzo dużych zbiorów danych składających się z wielu tysięcy obserwacji (respondentów), w warunkach niewystarczająca pojemność sprzętu komputerowego1. Próbki wykorzystywane w badaniach marketingowych w większości przypadków nie przekraczają czterech tysięcy respondentów. Praktyka badań marketingowych pokazuje, że właśnie pierwszy rodzaj analizy skupień – hierarchiczny – jest zalecany do stosowania we wszystkich przypadkach jako najbardziej trafny, uniwersalny i dokładny. Jednocześnie należy podkreślić, że dobór odpowiednich zmiennych jest istotny przy przeprowadzaniu analizy skupień. Uwaga ta jest bardzo ważna, gdyż uwzględnienie w analizie kilku lub nawet jednej nieistotnej zmiennej może doprowadzić do niepowodzenia całej procedury statystycznej.

Opiszemy metodologię przeprowadzania analizy skupień na poniższym przykładzie z praktyki badań marketingowych.

Wstępne dane:

Podczas badania przeprowadzono wywiady z 745 pasażerami linii lotniczych lecących jedną z 22 rosyjskich i zagranicznych linii lotniczych. Pasażerowie lotniczy zostali poproszeni o ocenę, w pięciostopniowej skali, od 1 (bardzo słabo) do 5 (doskonałe) siedmiu aspektów pracy personelu naziemnego linii lotniczych podczas odprawy: uprzejmość, profesjonalizm, terminowość, pomocność, zarządzanie kolejką , wygląd, ogólnie personel pracy.

Wymagany:

Podziel badane linie lotnicze według poziomu jakości pracy personelu naziemnego postrzeganego przez pasażerów lotniczych.

Mamy więc plik danych, który składa się z siedmiu zmiennych interwałowych oznaczających oceny wydajności personelu naziemnego różnych linii lotniczych (ql3-ql9), przedstawionych w pojedynczej pięciopunktowej skali. Plik danych zawiera pojedynczą zmienną q4 wskazującą linie lotnicze wybrane przez respondentów (łącznie 22). Przeprowadźmy analizę skupień i określmy, na jakie grupy docelowe można podzielić dane linii lotniczych.

Hierarchiczna analiza skupień przeprowadzana jest w dwóch etapach. Wynikiem pierwszego etapu jest liczba klastrów (segmentów docelowych), na które należy podzielić badaną próbę respondentów. Procedura analizy skupień jako taka nie jest

potrafi samodzielnie określić optymalną liczbę klastrów. Może jedynie zasugerować żądany numer. Ponieważ zadanie ustalenia optymalna liczba segmenty są kluczowe, zwykle jest rozwiązywane na osobnym etapie analizy. W drugim etapie następuje faktyczne grupowanie obserwacji według liczby skupień, która została określona podczas pierwszego etapu analizy. Przyjrzyjmy się teraz kolejno tym krokom analizy skupień.

Procedura analizy skupień jest uruchamiana za pomocą menu Analiza > Klasyfikuj > Klaster hierarchiczny. W otwartym oknie dialogowym, z lewej listy wszystkich zmiennych dostępnych w pliku danych, wybierz zmienne będące kryteriami segmentacji. W naszym przypadku jest ich siedem i oznaczają szacunki parametrów pracy personelu naziemnego ql3-ql9 (ryc. 5.44). W zasadzie określenie zestawu kryteriów segmentacji wystarczy do wykonania pierwszego etapu analizy skupień.

Ryż. 5.44.

Domyślnie oprócz tabeli z wynikami powstawania skupień, na podstawie której określimy ich optymalną liczbę, SPSS wyświetla również specjalny odwrócony histogram sopel, który zgodnie z intencją twórców programu pomaga określić optymalną liczbę klastrów; Wykresy są wyświetlane za pomocą przycisku Wykresy (rys. 5.45). Jeśli jednak pozostawimy tę opcję ustawioną, spędzimy dużo czasu na przetwarzaniu nawet stosunkowo niewielkiego pliku danych. Oprócz sopla w oknie Wykresy można wybrać szybszy wykres słupkowy Dendogram. Są to poziome słupki odzwierciedlające proces tworzenia klastra. Teoretycznie, przy małej (do 50-100) liczbie respondentów, diagram ten naprawdę pomaga w wyborze optymalnego rozwiązania dla wymaganej liczby klastrów. Jednak w prawie wszystkich przykładach z badań marketingowych wielkość próby przekracza tę wartość. Dendogram staje się całkowicie bezużyteczny, ponieważ nawet przy stosunkowo niewielkiej liczbie obserwacji jest bardzo długim ciągiem numerów wierszy oryginalnego pliku danych, połączonych liniami poziomymi i pionowymi. Większość podręczników SPSS zawiera przykłady analizy skupień na takich sztucznych, małych próbkach. W tym samouczku pokażemy Ci, jak najlepiej wykorzystać SPSS w praktycznym otoczeniu i na przykładach z badań rynkowych.

Ryż. 5.45.

Jak ustaliliśmy, ani Icicle, ani Dendogram nie nadają się do celów praktycznych. Dlatego w głównym oknie dialogowym Hierarchical Cluster Analysis nie zaleca się wyświetlania wykresów poprzez odznaczenie domyślnej opcji Plots w obszarze Display, jak pokazano na rys. 5.44. Teraz wszystko jest gotowe do wykonania pierwszego etapu analizy skupień. Rozpocznij procedurę, klikając przycisk OK.

Po chwili wyniki pojawią się w oknie SPSS Viewer. Jak wspomniano powyżej, jedynym istotnym dla nas wynikiem pierwszego etapu analizy będzie tabela Average Linkage (Between Groups), pokazana na rys. 5.46. Na podstawie tej tabeli musimy określić optymalną liczbę skupień. Należy zauważyć, że nie ma jednej uniwersalnej metody wyznaczania optymalnej liczby skupień. W każdym przypadku badacz musi sam ustalić tę liczbę.

Na podstawie doświadczeń autor proponuje następujący schemat tego procesu. Przede wszystkim spróbujmy zastosować najpopularniejszą standardową metodę wyznaczania liczby skupień. Korzystając z tabeli Average Linkage (Between Groups) należy określić, na jakim etapie procesu tworzenia klastra (etap kolumny) następuje pierwszy stosunkowo duży skok współczynnika aglomeracji (kolumna Współczynniki). Skok ten oznacza, że ​​wcześniej obserwacje, które znajdowały się w dość niewielkich odległościach od siebie, były łączone w skupienia (w naszym przypadku respondenci o podobnym poziomie ocen w zakresie analizowanych parametrów), a od tego etapu obserwacje bardziej odległe są połączone.

W naszym przypadku współczynniki płynnie wzrastają od 0 do 7,452, czyli różnica między współczynnikami w krokach od 1 do 728 była niewielka (na przykład pomiędzy 728 a 727 krokami - 0,534). Począwszy od kroku 729 następuje pierwszy znaczący skok współczynnika: z 7,452 do 10,364 (o 2,912). Krok, przy którym współczynnik skacze po raz pierwszy, to 729. Teraz, aby określić optymalną liczbę skupień, konieczne jest odjęcie otrzymanej wartości od całkowitej liczby obserwacji (wielkości próby). Całkowita liczebność próby w naszym przypadku to 745 osób; dlatego optymalna liczba klastrów to 745-729 = 16.


Ryż. 5.46.

Otrzymaliśmy dość dużą liczbę klastrów, które w przyszłości będą trudne do interpretacji. Dlatego teraz konieczne jest zbadanie uzyskanych klastrów i ustalenie, które z nich są znaczące, a które należy dążyć do redukcji. Problem ten jest rozwiązywany na drugim etapie analizy skupień.

Otwórz główne okno dialogowe procedury analizy skupień (menu Analiza > Klasyfikuj > Klaster hierarchiczny). W polu dla analizowanych zmiennych mamy już siedem parametrów. Kliknij przycisk Zapisz. Otwierające się okno dialogowe (rys. 5.47) umożliwia utworzenie nowej zmiennej w źródłowym pliku danych, która rozdziela respondentów na grupy docelowe. Wybierz opcję Pojedyncze rozwiązanie i w odpowiednim polu określ wymaganą liczbę klastrów – 16 (określona na pierwszym etapie analizy klastrów). Kliknięcie przycisku Kontynuuj spowoduje powrót do głównego okna dialogowego, w którym można kliknąć przycisk OK, aby rozpocząć procedurę analizy skupień.

Przed kontynuowaniem opisu procesu analizy skupień należy przedstawić: krótki opis inne opcje. Wśród nich znajdują się zarówno cechy użyteczne, jak i właściwie zbędne (z punktu widzenia praktycznych badań marketingowych). Na przykład główne okno dialogowe Hierarchiczna analiza skupień zawiera pole Etykietuj obserwacje według, w którym można opcjonalnie umieścić zmienną tekstową identyfikującą respondentów. W naszym przypadku do tych celów może służyć zmienna q4, która koduje wybrane przez respondentów linie lotnicze. W praktyce trudno jest wymyślić racjonalne wytłumaczenie użycia Label Cases według pola, więc możesz bezpiecznie zostawić je puste.

Ryż. 5.47.

Rzadko przy wykonywaniu analizy skupień używane jest okno dialogowe Statystyka, wywoływane przyciskiem o tej samej nazwie w głównym oknie dialogowym. Umożliwia wyświetlenie tabeli Członkostwo w klastrze w oknie SPSS Viewer, w której każdy respondent w źródłowym pliku danych jest odwzorowany na numer klastra. Przy wystarczająco dużej liczbie respondentów (w prawie wszystkich przykładach badań marketingowych) tabela ta staje się zupełnie bezużyteczna, ponieważ jest to długi ciąg par wartości „liczba respondenta/numer klastra”, których w tej formie nie można zinterpretować . Celem technicznym analizy skupień jest zawsze utworzenie w pliku danych dodatkowej zmiennej, która odzwierciedla podział respondentów na grupy docelowe (poprzez kliknięcie przycisku Zapisz w głównym oknie dialogowym analizy skupień). Ta zmienna, wraz z liczbą respondentów, to tabela Członkostwo w klastrze. Jedyną praktyczną opcją w oknie Statystyki jest wyświetlenie tabeli Średniego powiązania (pomiędzy grupami), ale jest ona już ustawiona domyślnie. Dlatego używanie przycisku Statystyka i wyświetlanie oddzielnej tabeli Członkostwo klastra w oknie SPSS Viewer nie jest praktyczne.

Przycisk Wykresy został już wspomniany powyżej: należy go dezaktywować poprzez odznaczenie parametru Wykresy w głównym oknie dialogowym analizy skupień.

Oprócz tych rzadko używanych funkcji procedury analizy skupień, SPSS oferuje również kilka bardzo przydatnych opcji. Wśród nich przede wszystkim przycisk Zapisz, który umożliwia utworzenie w źródłowym pliku danych nowej zmiennej, która rozdziela respondentów na klastry. Również w głównym oknie dialogowym znajduje się obszar wyboru obiektu grupowania: respondentów lub zmiennych. Możliwość ta została omówiona powyżej w sekcji 5.4. W pierwszym przypadku analiza skupień służy głównie do segmentacji respondentów według pewnych kryteriów; w drugim cel analizy skupień jest podobny do analizy czynnikowej: klasyfikacja (zmniejszenie liczby) zmiennych.

Jak widać na ryc. 5.44, jedyną nieuwzględnianą możliwością analizy skupień jest przycisk wyboru metody przeprowadzenia procedury statystycznej Metoda. Eksperymentowanie z tym parametrem pozwala uzyskać większą dokładność w określaniu optymalnej liczby skupień. Forma ogólna to okno dialogowe z ustawieniami domyślnymi pokazano na ryc. 5.48.

Ryż. 5.48.

Pierwszą rzeczą, która jest ustawiona w tym oknie, jest metoda tworzenia klastrów (czyli łączenia obserwacji). Spośród wszystkich możliwych opcji metod statystycznych oferowanych przez SPSS, należy wybrać albo domyślną metodę powiązania między grupami, albo Ward (metodę Warda). Pierwsza metoda jest używana częściej ze względu na jej wszechstronność i względną prostotę procedura statystyczna, na której jest oparta.Za pomocą tej metody odległość między skupieniami jest obliczana jako średnia odległości między wszystkimi możliwymi parami obserwacji, przy czym każda iteracja obejmuje jedną obserwację z jednego skupienia, a drugą z drugiego. teoretycznie możliwe pary obserwacji obserwacji. Metoda Warda jest trudniejsza do zrozumienia i rzadziej stosowana. Składa się z wielu etapów i polega na uśrednieniu wartości wszystkich zmiennych dla każdej obserwacji, a następnie zsumowaniu kwadratów odległości od obliczonych średnich do każdej obserwacji. cele praktyczne, marketing W przypadku nowych badań zalecamy, aby zawsze używać domyślnej metody łączenia grup.

Po wybraniu statystycznej procedury grupowania, wybierz metodę obliczania odległości między obserwacjami (obszar pomiaru w oknie dialogowym Metoda). Istnieć różne metody wyznaczanie odległości dla trzech typów zmiennych biorących udział w analizie skupień (kryteria segmentacji). Zmienne te mogą mieć skalę interwałową (interwał), nominalną (liczby) lub dychotomiczną (binarną). Skala dychotomiczna (binarna) implikuje tylko zmienne, które odzwierciedlają wystąpienie/niewystąpienie zdarzenia (kupione/nie kupione, tak/nie itp.). Inne typy zmiennych dychotomicznych (na przykład męskie/żeńskie) należy traktować i analizować jako nominalne (liczby).

Najczęściej stosowaną metodą określania odległości dla zmiennych interwałowych jest domyślna kwadratowa odległość euklidesowa. To właśnie ta metoda sprawdziła się w badaniach marketingowych jako najbardziej trafna i uniwersalna. Jednak dla zmiennych dychotomicznych, w których obserwacje są reprezentowane tylko przez dwie wartości (na przykład 0 i 1), ta metoda nie jest odpowiednia. Chodzi o to, że uwzględnia tylko interakcje między obserwacjami typu: X = 1,Y = 0 i X = 0, Y=l (gdzie X i Y są zmiennymi) i nie uwzględnia innych rodzajów interakcji. Najbardziej kompleksową miarą odległości, uwzględniającą wszystkie ważne rodzaje interakcji między dwiema zmiennymi dychotomicznymi, jest metoda Lambda. Zalecamy korzystanie z tej metody ze względu na jej wszechstronność. Istnieją jednak inne metody, takie jak Shape, Hamann czy Anderbergs D.

Określając metodę wyznaczania odległości dla zmiennych dychotomicznych należy wskazać w odpowiednim polu konkretne wartości, jakie mogą przyjmować badane zmienne dychotomiczne: w polu Obecny - kodowanie odpowiedzi Tak, a w polu Nieobecny - Nie . Nazwy pól obecnych i nieobecnych wiążą się z faktem, że w grupie metod binarnych ma używać tylko zmiennych dychotomicznych, które odzwierciedlają wystąpienie/niewystąpienie zdarzenia. Dla dwóch typów zmiennych Interval i Binary istnieje kilka metod określania odległości. W przypadku zmiennych o nominalnym typie skali SPSS oferuje tylko dwie metody: (miara chi-kwadrat) i (miara fi-kwadrat). Zalecamy stosowanie pierwszej metody jako najbardziej powszechnej.

Okno dialogowe Method ma obszar Transform Values, który zawiera pole Standaryzacja. To pole jest używane, gdy w analizie skupień biorą udział zmienne o różnych typach skali (na przykład interwałowej i nominalnej). Aby wykorzystać te zmienne w analizie skupień, konieczne jest przeprowadzenie standaryzacji, prowadzącej do jednego rodzaju skali – interwału. Najpopularniejszą metodą standaryzacji zmiennych jest 2-standaryzacja (Zscores): wszystkie zmienne sprowadza się do jednego zakresu wartości od -3 do +3 i po przekształceniu stanowią interwał.

Ponieważ wszystkie optymalne metody (grupowanie i wyznaczanie odległości) są ustawione domyślnie, zaleca się korzystanie z okna dialogowego Method jedynie w celu określenia rodzaju analizowanych zmiennych, a także wskazania konieczności przeprowadzenia 2-standaryzacji zmiennych.

Tak więc opisaliśmy wszystkie główne funkcje oferowane przez SPSS do analizy skupień. Wróćmy do opisu analizy skupień przeprowadzonej na potrzeby segmentacji linii lotniczych. Przypomnijmy, że zdecydowaliśmy się na rozwiązanie szesnastoklastrowe i utworzyliśmy nową zmienną clul6_l w oryginalnym pliku danych, rozdzielając wszystkie analizowane linie lotnicze w klastry.

Aby ustalić na ile poprawnie wyznaczyliśmy optymalną liczbę skupień, zbudujemy liniowy rozkład zmiennej clul6_l (menu Analiza > Statystyka opisowa > Częstotliwości). Jak widać na ryc. 5,49 w skupieniach o numerach 5-16 liczba respondentów waha się od 1 do 7. Wraz z opisaną powyżej uniwersalną metodą wyznaczania optymalnej liczby skupień (na podstawie różnicy między całkowitą liczbą respondentów a pierwszym skokiem w współczynnik aglomeracji), jest też dodatkowa rekomendacja: wielkość klastrów powinna być statystycznie znacząca i praktyczna. Przy naszej wielkości próby taką wartość krytyczną można ustawić co najmniej na poziomie 10. Widzimy, że tylko klastry o numerach 1-4 mieszczą się w tym warunku. Dlatego teraz konieczne jest przeliczenie procedury analizy skupień z wynikiem rozwiązania czteroklastrowego (utworzona zostanie nowa zmienna du4_l).


Ryż. 5.49.

Po zbudowaniu rozkładu liniowego na nowo utworzonej zmiennej du4_l zobaczymy, że tylko w dwóch skupieniach (1 i 2) liczba respondentów jest praktycznie znacząca. Musimy ponownie przebudować model klastra — teraz dla rozwiązania dwuklastrowego. Następnie konstruujemy rozkład ze względu na zmienną du2_l (rys. 5.50). Jak widać z tabeli, rozwiązanie dwuklastrowe ma statystycznie i praktycznie istotną liczbę respondentów w każdym z dwóch utworzonych klastrów: w skupieniu 1 - 695 respondentów; w klastrze 2 - 40. Tym samym ustaliliśmy optymalną liczbę klastrów dla naszego zadania i dokonaliśmy faktycznej segmentacji respondentów według siedmiu wybranych kryteriów. Teraz możemy uznać główny cel naszego zadania za osiągnięty i przejść do ostatniego etapu analizy skupień - interpretacji uzyskanych grup docelowych (segmentów).


Ryż. 5.50.

Otrzymane rozwiązanie różni się nieco od tych, które mogłeś zobaczyć w pomoc naukowa przez SPSS. Nawet najbardziej praktyczne podręczniki dostarczają sztucznych przykładów, w których grupowanie skutkuje idealnymi grupami docelowymi respondentów. W niektórych przypadkach (5) autorzy wskazują nawet bezpośrednio na sztuczne pochodzenie przykładów. W tym tutorialu posłużymy się przykładem z życia praktycznych badań marketingowych, który nie różni się idealnymi proporcjami, jako ilustracją działania analizy skupień. Pozwoli nam to pokazać najczęstsze trudności w prowadzeniu analizy skupień, a także najlepsze metody ich eliminacji.

Zanim przejdziemy do interpretacji powstałych skupień, podsumujmy. Mamy następujący schemat wyznaczania optymalnej liczby klastrów.

¦ W kroku 1 określamy liczbę skupień metodą matematyczną opartą na współczynniku aglomeracji.

¦ Na etapie 2 grupujemy respondentów według uzyskanej liczby skupień, a następnie budujemy rozkład liniowy zgodnie z utworzoną nową zmienną (clul6_l). W tym miejscu należy również określić, ile klastrów składa się ze statystycznie istotnej liczby respondentów. Generalnie zaleca się ustalenie minimalnej znaczącej liczby klastrów na poziomie co najmniej 10 respondentów.

¦ Jeżeli wszystkie klastry spełniają to kryterium, przechodzimy do ostatniego etapu analizy skupień: interpretacji klastrów. Jeżeli istnieją klastry z niewielką liczbą składowych obserwacji, określamy, ile klastrów składa się ze znacznej liczby respondentów.

¦ Przeliczamy procedurę analizy skupień, określając w oknie dialogowym Zapisz liczbę skupień składających się ze znacznej liczby obserwacji.

¦ Na nowej zmiennej budujemy rozkład liniowy.

Ta sekwencja działań jest powtarzana aż do znalezienia rozwiązania, w którym wszystkie klastry będą składać się ze statystycznie istotnej liczby respondentów. Następnie można przejść do ostatniego etapu analizy skupień – interpretacji skupień.

Na szczególną uwagę zasługuje fakt, że kryterium istotności praktycznej i statystycznej liczby klastrów nie jest jedynym kryterium, za pomocą którego można określić optymalną liczbę klastrów. Badacz może samodzielnie, opierając się na swoim doświadczeniu, zasugerować liczbę skupień (musi być spełniony warunek istotności). Inną opcją jest dość powszechna sytuacja, gdy na potrzeby badania z góry ustalany jest warunek segmentacji respondentów według określonej liczby grup docelowych. W takim przypadku wystarczy raz przeprowadzić hierarchiczną analizę skupień, zachowując wymaganą liczbę skupień, a następnie spróbować zinterpretować, co się dzieje.

W celu opisania powstałych segmentów docelowych należy skorzystać z procedury porównywania średnich wartości badanych zmiennych (centroidów skupień). Porównamy średnie wartości siedmiu rozpatrywanych kryteriów segmentacji w każdym z dwóch powstałych klastrów.

Procedura porównywania średnich jest wywoływana za pomocą menu Analiza > Porównaj średnie > Średnie. W otwartym oknie dialogowym (rys. 5.51) wybierz siedem zmiennych wybranych jako kryteria segmentacji (ql3-ql9) z listy po lewej stronie i przenieś je do pola Lista zależna dla zmiennych zależnych. Następnie przenieś zmienną сШ2_1, która odzwierciedla podział respondentów na skupienia w ostatecznym (dwuklastrowym) rozwiązaniu problemu, z listy lewej do pola dla zmiennych niezależnych Lista niezależna. Następnie kliknij przycisk Opcje.

Ryż. 5.51.

Otworzy się okno dialogowe Opcje, wybierz w nim niezbędne statystyki do porównania klastrów (ryc. 5.52). Aby to zrobić, w polu Statystyki komórki pozostaw tylko dane wyjściowe wartości średnich, usuwając z nich inne domyślne statystyki. Zamknij okno dialogowe Opcje, klikając przycisk Kontynuuj. Na koniec z głównego okna dialogowego Średnia uruchom procedurę porównywania średnich (przycisk OK).

Ryż. 5.52.

W otwartym oknie SPSS Viewer pojawią się wyniki statystycznej procedury porównywania średnich. Interesuje nas tabela Raport (rys. 5.53). Z tego widać, na jakiej podstawie SPSS podzielił respondentów na dwa skupienia. W naszym przypadku takim kryterium jest poziom ocen dla analizowanych parametrów. Skupienie 1 tworzą respondenci, dla których średnie wyniki dla wszystkich kryteriów segmentacji są na stosunkowo wysokim poziomie (4,40 pkt i powyżej). Skupienie 2 obejmuje respondentów, którzy dość nisko ocenili rozważane kryteria segmentacji (3,35 pkt i poniżej). Można zatem stwierdzić, że 93,3% respondentów tworzących klaster 1 oceniło analizowane linie lotnicze pod każdym względem jako ogólnie dobre; 5,4% jest dość niskie; 1,3% miało trudności z udzieleniem odpowiedzi (por. wykres 5.50). Z ryc. 5.53 można również wnioskować, który poziom ocen dla każdego z rozpatrywanych osobno parametrów jest wysoki, a który niski (i taki wniosek wyciągną respondenci, co pozwala na uzyskanie wysokiej trafności klasyfikacji). Z tabeli Report widać, że dla zmiennej Queue Throttling, średni poziom wyniku 4,40 jest uważany za wysoki, a dla parametru Wygląd -- 4.72.


Ryż. 5.53.

Może się okazać, że w podobnym przypadku 4,5 jest uważane za wysoką ocenę dla parametru X, a tylko 3,9 dla parametru Y. Nie będzie to błąd grupowania, lecz przeciwnie, pozwoli na wyciągnięcie ważnego wniosku dotyczącego znaczenia rozważanych parametrów dla respondentów. Zatem dla parametru Y już 3,9 punktu to dobre oszacowanie, podczas gdy dla parametru X respondenci stawiają bardziej rygorystyczne wymagania.

Zidentyfikowaliśmy dwa istotne skupienia, które różnią się poziomem średnich wyników według kryteriów segmentacji. Teraz możesz przypisać etykiety do otrzymanych klastrów: dla 1 - Linie lotnicze spełniające wymagania respondentów (według siedmiu analizowanych kryteriów); dla 2 — linie lotnicze, które nie spełniają wymagań respondentów. Teraz możesz zobaczyć, które poszczególne linie lotnicze (zakodowane w zmiennej q4) spełniają wymagania respondentów, a które nie spełniają kryteriów segmentacji. W tym celu należy zbudować rozkład krzyżowy zmiennej q4 (analizowane linie lotnicze) w zależności od zmiennej grupującej clu2_l. Wyniki takiej analizy przekrojowej przedstawiono na ryc. 5.54.

Na podstawie tej tabeli można wyciągnąć następujące wnioski dotyczące przynależności badanych linii lotniczych do wybranych segmentów docelowych.


Ryż. 5.54.

1. Linie lotnicze w pełni spełniające wymagania wszystkich klientów w zakresie pracy personelu naziemnego (zaliczone tylko w jednym pierwszym klastrze):

¦ linie lotnicze Wnukowo;

¦ Amerykańskie Linie Lotnicze;

¦ linie lotnicze Delta;

Austriackie Linie Lotnicze;

¦ British Airways;

¦ Koreańskie Linie Lotnicze;

Japońskie linie lotnicze.

2. Linie lotnicze spełniające wymagania większości swoich klientów w zakresie pracy personelu naziemnego (większość respondentów latających tymi liniami jest zadowolona z pracy personelu naziemnego):

¦ Transaero.

3. Linie lotnicze, które nie spełniają wymagań większości swoich klientów w zakresie pracy personelu naziemnego (większość respondentów latających tymi liniami nie jest zadowolona z pracy personelu naziemnego):

¦ Linie lotnicze Domodiedowo;

¦ Pułkowo;

¦ Syberia;

¦ Uralskie Linie Lotnicze;

¦ Samara linie lotnicze;

W ten sposób na poziomie średnich ocen uzyskano trzy docelowe segmenty linii lotniczych, charakteryzujące się różnym stopniem zadowolenia respondentów z pracy personelu naziemnego:

  • 1. najatrakcyjniejsze linie lotnicze dla pasażerów pod względem poziomu pracy personelu naziemnego (14);
  • 2. dość atrakcyjne linie lotnicze (1);
  • 3. raczej nieatrakcyjne linie lotnicze (7).

Z sukcesem przeszliśmy wszystkie etapy analizy klastrowej i segmentacji linii lotniczych według siedmiu wybranych kryteriów.

Teraz podajemy opis metodologii analizy skupień w połączeniu z analizą czynnikową. Korzystamy z warunku problemu z rozdziału 5.2.1 (analiza czynnikowa). Jak już wspomniano, w problemach z segmentacją przy dużej liczbie zmiennych wskazane jest poprzedzenie analizy skupień analizą czynnikową. Ma to na celu zmniejszenie liczby kryteriów segmentacji do tych najbardziej znaczących. W naszym przypadku w oryginalnym pliku danych mamy 24 zmienne. W wyniku analizy czynnikowej udało nam się zredukować ich liczbę do 5. Teraz tę liczbę czynników można efektywnie wykorzystać do analizy skupień, a same czynniki można wykorzystać jako kryteria segmentacji.

Jeśli staniemy przed zadaniem segmentacji respondentów według ich oceny różnych aspektów aktualnej pozycji konkurencyjnej linii lotniczej X, możemy przeprowadzić hierarchiczną analizę skupień według pięciu zidentyfikowanych kryteriów (zmienne nfacl_l-nfac5_l). W naszym przypadku zmienne były oceniane w różnych skalach. Na przykład ocena 1 za stwierdzenie „Nie chciałbym, aby linia lotnicza się zmieniła” i taka sama ocena za stwierdzenie „Zmiany w linii lotniczej” będzie pozytywnym momentem, diametralnie odwrotnym w znaczeniu. W pierwszym przypadku 1 punkt (zdecydowanie się nie zgadzam) oznacza, że ​​respondent z zadowoleniem przyjmuje zmiany w linii lotniczej; w drugim przypadku wynik 1 oznacza, że ​​respondent odrzuca zmiany w linii lotniczej. Przy interpretacji skupień nieuchronnie napotkamy trudności, ponieważ takie zmienne, które mają przeciwne znaczenie, mogą:

należą do tego samego czynnika. Dlatego na potrzeby segmentacji zaleca się ujednolicenie w pierwszej kolejności skal badanych zmiennych, a następnie przeliczenie modelu czynnikowego. A już dalej przeprowadzić analizę skupień na zmiennych-czynnikach uzyskanych w wyniku analizy czynnikowej. Nie będziemy ponownie szczegółowo opisywać procedur analizy czynnikowej i skupień (zostało to zrobione powyżej w odpowiednich rozdziałach). Zaznaczamy tylko, że dzięki tej technice w efekcie otrzymaliśmy trzy grupy docelowe pasażerów lotniczych, różniące się poziomem ocen wybranych czynników (czyli grup zmiennych): najniższą, średnią i najwyższą.

Bardzo przydatna aplikacja analiza skupień to podział na grupy tabel liczebności. Załóżmy, że mamy liniowy rozkład odpowiedzi na pytanie Jakie marki programów antywirusowych są zainstalowane w Twojej organizacji?. Aby sformułować wnioski na temat tej dystrybucji, konieczne jest podzielenie marek antywirusowych na kilka grup (zwykle 2-3). Aby podzielić wszystkie marki na trzy grupy (najpopularniejsze marki, średnia popularność i marki niepopularne), najlepiej skorzystać z analizy skupień, choć z reguły badacze rozdzielają elementy tablic częstości naocznie, opierając się na subiektywnych rozważaniach. W przeciwieństwie do tego podejścia analiza skupień pozwala na naukowe uzasadnienie przeprowadzonego grupowania. W tym celu należy wprowadzić wartości każdego parametru w SPSS (wskazane jest wyrażenie tych wartości w procentach), a następnie na tych danych przeprowadzić analizę skupień. Zapisując rozwiązanie klastrowe dla wymaganej liczby grup (w naszym przypadku 3) jako nową zmienną, otrzymujemy grupowanie ważne statystycznie.

Końcową część tego rozdziału poświęcimy opisowi wykorzystania analizy skupień do klasyfikacji zmiennych i porównaniu jej wyników z wynikami analizy czynnikowej przeprowadzonej w rozdziale 5.2.1. W tym celu ponownie wykorzystamy warunek problemu dotyczący oceny aktualnej pozycji linii lotniczej X na rynku przewozów lotniczych. Metodologia przeprowadzania analizy skupień niemal w całości powtarza opisaną powyżej (kiedy dokonano segmentacji respondentów).

Tak więc w oryginalnym pliku danych mamy 24 zmienne, które opisują stosunek respondentów do różnych aspektów aktualnej pozycji konkurencyjnej linii lotniczej X. Otwórz główne okno dialogowe Hierarchiczna Analiza skupień i umieść 24 zmienne (ql-q24) w Zmiennej (s) pole, ryc. 5.55. W obszarze Klaster wskaż, że klasyfikujesz zmienne (zaznacz opcję Zmienne). Zobaczysz, że przycisk Zapisz stał się niedostępny — w przeciwieństwie do analizy czynnikowej, analiza skupień nie może zapisać ocen czynników dla wszystkich respondentów. Wyłącz drukowanie, wyłączając opcję Wykresy. W pierwszym kroku nie potrzebujesz żadnych innych opcji, więc po prostu kliknij przycisk OK, aby rozpocząć procedurę analizy skupień.

W oknie SPSS Viewer pojawiła się tabela Harmonogram aglomeracji, według której wyznaczyliśmy optymalną liczbę klastrów metodą opisaną powyżej (rys. 5.56). Pierwszy skok współczynnika aglomeracji obserwuje się w kroku 20 (z 18834.000 do 21980.967). Na podstawie łącznej liczby analizowanych zmiennych, równej 24, można obliczyć optymalną liczbę skupień: 24 - 20 = 4.

Ryż. 5.55.


Ryż. 5.56.

Przy klasyfikowaniu zmiennych skupienie składające się tylko z jednej zmiennej jest istotne praktycznie i statystycznie. W związku z tym, ponieważ uzyskaliśmy akceptowalną liczbę skupień metodą matematyczną, nie są wymagane żadne dalsze kontrole. Zamiast tego otwórz ponownie główne okno dialogowe analizy skupień (wszystkie dane użyte w poprzednim kroku zostaną zachowane) i kliknij przycisk Statystyka, aby wyświetlić tabelę klasyfikacji. Pojawi się okno dialogowe o tej samej nazwie, w którym należy określić liczbę skupień, na które należy podzielić 24 zmienne (rys. 5.57). W tym celu wybierz opcję Pojedyncze rozwiązanie iw odpowiednim polu określ wymaganą liczbę klastrów: 4. Teraz zamknij okno Statystyka, klikając przycisk Kontynuuj i uruchom procedurę z głównego okna analizy skupień.

W rezultacie w oknie SPSS Viewer pojawi się tabela Członkostwo klastrów, rozkładająca analizowane zmienne na cztery klastry (rys. 5.58).

Ryż. 5.58.

Zgodnie z tą tabelą, każdą rozważaną zmienną można przypisać do konkretnego skupienia w następujący sposób.

Klaster 1

ql. Linia lotnicza X ma reputację doskonałej obsługi pasażerów.

q2. Linia X może konkurować z najlepszymi liniami lotniczymi na świecie.

q3. Wierzę, że linie lotnicze X mają obiecującą przyszłość w światowym lotnictwie.

q5. Jestem dumny, że pracuję dla linii lotniczych X.

q9. Przed nami długa droga, zanim będziemy mogli pretendować do miana światowej klasy linii lotniczych.

q10. Linie lotnicze X naprawdę dbają o pasażerów.

ql3. Uwielbiam sposób, w jaki Airline X prezentuje się wizualnie szerokiej publiczności (pod względem kolorów i brandingu).

ql4. Linia lotnicza X jest twarzą Rosji.

ql6. Usługa Airline X jest spójna i rozpoznawalna przez cały czas

ql8. Linia lotnicza X musi się zmienić, aby w pełni wykorzystać swój potencjał.

ql9. Myślę, że Airline X musi prezentować się wizualnie w bardziej nowoczesny sposób.

q20. Zmiany w linii lotniczej X będą czymś pozytywnym. q21. Linia lotnicza X to wydajna linia lotnicza.

q22. Chciałbym, aby wizerunek linii lotniczej X w kontekście zagranicznych pasażerów poprawił się.

q23. Linia lotnicza X jest lepsza niż większość ludzi myśli.

q24. Ważne jest, aby ludzie na całym świecie wiedzieli, że jesteśmy rosyjską linią lotniczą.

Klaster 2

q4. Wiem, jaka będzie przyszła strategia linii lotniczych X.

q6. Linia lotnicza X ma dobrą komunikację między działami.

q7. Każdy pracownik linii lotniczej dokłada wszelkich starań, aby zapewnić jej sukces.

q8. Teraz linia lotnicza X szybko się poprawia.

qll. Wśród pracowników linii lotniczych panuje wysoki stopień zadowolenia z pracy.

ql2. Wierzę, że menedżerowie wyższego szczebla robią, co w ich mocy, aby osiągnąć sukces linii lotniczej.

Klaster 3

ql5. Wyglądamy jak „wczoraj” w porównaniu z innymi liniami lotniczymi.

Klaster 4

ql7. Nie chciałbym, żeby linia lotnicza X się zmieniła.

Jeśli porównasz wyniki analiz czynnikowych (sekcja 5.2.1) i skupień, zobaczysz, że różnią się one znacznie. Analiza skupień nie tylko zapewnia znacznie mniejsze możliwości grupowania zmiennych (na przykład brak możliwości zapisania ocen grupowych) w porównaniu z analizą czynnikową, ale także daje znacznie mniej wyników wizualnych. W naszym przypadku, jeśli skupienia 2, 3 i 4 nadal podlegają logicznej interpretacji1, to skupienie 1 zawiera zdania o zupełnie innym znaczeniu. W takiej sytuacji możesz spróbować opisać klaster 1 takim, jakim jest, albo przebudować model statystyczny z inną liczbą klastrów. W tym drugim przypadku w celu znalezienia optymalnej liczby klastrów, które można logicznie opisać, można użyć parametru Zakres rozwiązań w oknie dialogowym Statystyka (patrz Rysunek 5.57), określając minimalną i maksymalną liczbę klastrów w odpowiednich polach ( w naszym przypadku odpowiednio 4 i 6). W takiej sytuacji SPSS przebuduje tabelę Członkostwo klastra dla każdej liczby klastrów. Zadaniem analityka w tym przypadku jest próba wyboru modelu klasyfikacji, w którym wszystkie klastry będą interpretowane jednoznacznie. Aby zademonstrować możliwości procedury analizy skupień dla grupowania zmiennych, nie będziemy przebudowywać modelu skupień, ale ograniczymy się do tego, co zostało powiedziane powyżej.

Należy zauważyć, że pomimo pozornej prostoty analizy skupień w porównaniu z analizą czynnikową, w niemal wszystkich przypadkach badań marketingowych analiza czynnikowa jest szybsza i bardziej efektywna niż analiza skupień. Dlatego do klasyfikacji (redukcji) zmiennych zdecydowanie zalecamy stosowanie analizy czynnikowej i pozostawienie wykorzystania analizy skupień do klasyfikacji respondentów.

Analiza klasyfikacyjna jest być może jednym z najbardziej złożonych narzędzi statystycznych z punktu widzenia nieprzygotowanego użytkownika. Wynika to z jego bardzo niskiego rozpowszechnienia w firmach marketingowych. Jednak ta grupa metody statystyczne jest również jednym z najbardziej przydatnych praktykom w dziedzinie badań marketingowych.

Analiza skupień to

Dobry dzień. Tutaj mam szacunek dla ludzi, którzy są fanami swojej pracy.

Maxim, mój przyjaciel, należy do tej kategorii. Stale pracuje z liczbami, analizuje je, sporządza odpowiednie raporty.

Wczoraj jedliśmy razem lunch, więc przez prawie pół godziny opowiadał mi o analizie skupień - co to jest iw jakich przypadkach jej zastosowanie jest rozsądne i celowe. A co ze mną?

Mam dobrą pamięć, więc przy okazji przekażę Ci wszystkie te dane, o których już wiedziałem w oryginalnej i najbardziej informacyjnej formie.

Analiza skupień ma na celu podzielenie zbioru obiektów na jednorodne grupy (skupienia lub klasy). Jest to zadanie wielowymiarowej klasyfikacji danych.

Istnieje około 100 różnych algorytmów grupowania, jednak najczęściej stosowanymi są hierarchiczna analiza skupień i grupowanie k-średnich.

Gdzie stosowana jest analiza skupień? W marketingu jest to segmentacja konkurentów i konsumentów.

W zarządzaniu: podział personelu na grupy o różnym poziomie motywacji, klasyfikacja dostawców, identyfikacja podobnych sytuacji produkcyjnych, w których występuje małżeństwo.

W medycynie klasyfikacja objawów, pacjentów, leków. W socjologii podział respondentów na grupy homogeniczne. W rzeczywistości analiza skupień sprawdziła się dobrze we wszystkich sferach ludzkiego życia.

Piękno tej metody polega na tym, że działa ona nawet wtedy, gdy jest mało danych, a wymagania dotyczące normalności rozkładów zmiennych losowych oraz inne wymagania klasycznych metod analizy statystycznej nie są spełnione.

Wyjaśnijmy istotę analizy skupień bez uciekania się do ścisłej terminologii:
Załóżmy, że przeprowadziłeś ankietę wśród pracowników i chcesz określić, w jaki sposób możesz najefektywniej zarządzać swoimi pracownikami.

Oznacza to, że chcesz podzielić pracowników na grupy i wybrać dla każdej z nich najskuteczniejsze dźwignie kontrolne. Jednocześnie różnice między grupami powinny być oczywiste, a wewnątrz grupy respondenci powinni być jak najbardziej podobni.

Do rozwiązania problemu proponuje się zastosowanie hierarchicznej analizy skupień.

W efekcie otrzymamy drzewo, patrząc na które musimy zdecydować, na ile klas (klastrów) chcemy podzielić personel.

Załóżmy, że decydujemy się podzielić kadrę na trzy grupy, a następnie badając respondentów, którzy przynależeli do każdego klastra, otrzymujemy tablet o następującej treści:


Wyjaśnijmy, jak powstaje powyższa tabela. Pierwsza kolumna zawiera numer klastra — grupy, której dane są odzwierciedlone w wierszu.

Na przykład pierwszy klaster to 80% mężczyzn. 90% klastra pierwszego należy do grupy wiekowej od 30 do 50 lat, a 12% respondentów uważa, że ​​korzyści są bardzo ważne. Itp.

Spróbujmy zrobić portrety respondentów z każdego skupienia:

  1. Pierwsza grupa to głównie mężczyźni. średni wiek piastowanie stanowisk kierowniczych. Pakiet socjalny (MED, LGOTI, CZAS wolny) ich nie interesuje. Wolą dobrą pensję niż pomoc od pracodawcy.
  2. Grupa druga natomiast preferuje pakiet socjalny. Składa się głównie z osób „w podeszłym wieku” zajmujących niskie stanowiska. Wynagrodzenie jest dla nich z pewnością ważne, ale są inne priorytety.
  3. Trzecia grupa to „najmłodsi”. W przeciwieństwie do poprzednich dwóch, istnieje oczywiste zainteresowanie nauką i możliwościami rozwoju zawodowego. Ta kategoria pracowników ma duże szanse wkrótce uzupełnić pierwszą grupę.

Dlatego planując kampanię na rzecz wprowadzenia efektywnych metod zarządzania personelem, oczywiste jest, że w naszej sytuacji możliwe jest zwiększenie pakietu socjalnego dla drugiej grupy ze szkodą np. płac.

Jeśli mówimy o tym, którzy specjaliści powinni zostać wysłani na szkolenie, to zdecydowanie możemy polecić zwrócenie uwagi na trzecią grupę.

Źródło: http://website/www.nickart.spb.ru/analysis/cluster.php

Cechy analizy skupień

Klaster to cena zasobu w określonym czasie, w którym dokonano transakcji. Wynikowy wolumen zakupów i sprzedaży jest oznaczony liczbą w obrębie klastra.

Pasek dowolnej TF zawiera z reguły kilka klastrów. Dzięki temu możesz zobaczyć szczegółowo wolumeny zakupów, sprzedaży i ich saldo w każdym pojedynczym słupku, dla każdego poziomu cenowego.


Zmiana ceny jednego aktywa nieuchronnie pociąga za sobą łańcuch ruchów cenowych również na innych instrumentach.

Uwaga!

W większości przypadków zrozumienie ruchu trendu następuje już w momencie, gdy ten szybko się rozwija, a wejście na rynek zgodnie z trendem obarczone jest wpadnięciem w falę korekcyjną.

W przypadku udanych transakcji konieczne jest zrozumienie obecnej sytuacji i umiejętność przewidywania przyszłych ruchów cen. Można się tego nauczyć analizując wykres skupień.

Za pomocą analizy skupień możesz zobaczyć aktywność uczestników rynku w nawet najmniejszym pasku cenowym. Jest to najdokładniejsza i najbardziej szczegółowa analiza, ponieważ pokazuje punktowy rozkład wolumenów transakcji dla każdego poziomu cen aktywów.

Na rynku dochodzi do ciągłej konfrontacji interesów sprzedających i kupujących. A każdy najmniejszy ruch cenowy (tick) jest przejściem do kompromisu – poziomu cen – który w ten moment pasuje do obu stron.

Ale rynek jest dynamiczny, liczba sprzedających i kupujących ciągle się zmienia. Jeśli w pewnym momencie rynek był zdominowany przez sprzedających, to w następnym najprawdopodobniej pojawią się kupujący.

Liczba zrealizowanych transakcji na sąsiednich poziomach cenowych również nie jest taka sama. A jednak najpierw sytuacja rynkowa znajduje odzwierciedlenie w całkowitym wolumenie transakcji, a dopiero potem w cenie.

Jeśli widzisz działania dominujących uczestników rynku (sprzedających lub kupujących), możesz przewidzieć sam ruch ceny.

Aby skutecznie zastosować analizę skupień, musisz najpierw zrozumieć, czym są klaster i delta.


Klaster nazywa się ruchem cenowym, który jest podzielony na poziomy, na których dokonano transakcji o znanych wolumenach. Delta pokazuje różnicę między kupnem a sprzedażą występującą w każdym klastrze.

Każdy klaster lub grupa delt pozwala określić, czy w danym momencie na rynku dominują kupujący, czy sprzedający.

Wystarczy obliczyć całkowitą deltę, sumując sprzedaż i zakupy. Jeśli delta jest ujemna, to rynek jest wyprzedany, dochodzi do zbędnych transakcji sprzedaży. Kiedy delta jest dodatnia, rynek jest wyraźnie zdominowany przez kupujących.

Sama delta może przyjąć wartość normalną lub krytyczną. Wartość objętości delta powyżej normalnej wartości w klastrze jest podświetlona na czerwono.

Jeśli delta jest umiarkowana, oznacza to stan płaski na rynku. Przy normalnej wartości delta na rynku obserwuje się ruch trendu, ale wartość krytyczna jest zawsze zwiastunem odwrócenia ceny.

Handel na rynku Forex z CA

Aby uzyskać maksymalny zysk, musisz umieć określić przejście delty z poziomu umiarkowanego na normalny. Rzeczywiście, w tym przypadku można zauważyć sam początek przejścia od ruchu płaskiego do ruchu trendowego i być w stanie uzyskać największy zysk.

Wykres klastrowy jest bardziej wizualny, można na nim zobaczyć znaczne poziomy akumulacji i dystrybucji wolumenów, budować poziomy wsparcia i oporu. Pozwala to przedsiębiorcy na znalezienie dokładnego wejścia do handlu.

Za pomocą delty można ocenić przewagę sprzedaży lub zakupów na rynku. Analiza klastrów pozwala obserwować transakcje i śledzić ich wolumeny w pasku dowolnego TF.

Jest to szczególnie ważne przy zbliżaniu się do znaczących poziomów wsparcia lub oporu. Kluczem do zrozumienia rynku są osądy klastrowe.

Źródło: http://website/orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Obszary i cechy zastosowania analizy skupień

Termin analiza skupień (wprowadzony po raz pierwszy przez Tryona, 1939) w rzeczywistości obejmuje zestaw różnych algorytmów klasyfikacji.

Pytanie ogólne, pytany przez badaczy z wielu dziedzin, to jak uporządkować obserwowane dane w struktury wizualne, tj. rozwiń taksonomie.

Zgodnie z nowoczesny system Przyjęty w biologii człowiek należy do naczelnych, ssaków, owodniowców, kręgowców i zwierząt.

Zauważ, że w tej klasyfikacji im wyższy poziom agregacji, tym mniejsze podobieństwo między elementami w odpowiedniej klasie.

Człowiek ma więcej podobieństw z innymi naczelnymi (tj. małpami) niż z „odległymi” członkami rodziny ssaków (tj. psami) i tak dalej.

Zauważ, że poprzednia dyskusja odnosi się do algorytmów grupowania, ale nie wspomina nic o testowaniu pod kątem istotności statystycznej.

W rzeczywistości analiza skupień jest nie tyle zwykłą metodą statystyczną, ile „zbiorem” różnych algorytmów „rozkładania obiektów w skupienia”.

Istnieje pogląd, że w przeciwieństwie do wielu innych procedur statystycznych, metody analizy skupień są stosowane w większości przypadków, gdy nie masz żadnych hipotez a priori dotyczących klas, ale nadal znajdujesz się na opisowym etapie badania.

Uwaga!

Należy rozumieć, że analiza skupień określa „najbardziej sensowną decyzję”.

Dlatego testowanie istotności statystycznej nie ma tutaj zastosowania, nawet w przypadkach, gdy znane są poziomy p (jak na przykład w metodzie K-średnich).

Technika grupowania jest stosowana w wielu różnych dziedzinach. Hartigan (1975) przedstawił doskonały przegląd wielu opublikowanych badań zawierających wyniki uzyskane metodami analizy skupień.

Na przykład w dziedzinie medycyny grupowanie chorób, leczenie chorób lub objawów chorób prowadzi do szeroko stosowanych taksonomii.

W dziedzinie psychiatrii prawidłowa diagnoza zespołów objawów, takich jak paranoja, schizofrenia itp., ma kluczowe znaczenie dla powodzenia terapii. W archeologii za pomocą analizy skupień badacze starają się ustalić taksonomie narzędzi kamiennych, przedmiotów pogrzebowych itp.

Istnieje szerokie zastosowanie analizy klastrowej w badaniach marketingowych. Generalnie, tam gdzie zachodzi potrzeba zaklasyfikowania „gór” informacji do grup nadających się do dalszego przetwarzania, analiza skupień okazuje się bardzo przydatna i skuteczna.

Grupowanie drzew

Przykład w sekcji Cel podstawowy wyjaśnia cel algorytmu łączenia (grupowania drzew).

Celem tego algorytmu jest łączenie obiektów (na przykład zwierząt) w wystarczająco duże skupiska przy użyciu pewnej miary podobieństwa lub odległości między obiektami. Typowym wynikiem takiego grupowania jest drzewo hierarchiczne.

Rozważ poziomy diagram drzewa. Diagram zaczyna się od każdego obiektu w klasie (po lewej stronie diagramu).

Teraz wyobraź sobie, że stopniowo (bardzo małymi krokami) „osłabiasz” swoje kryterium tego, które przedmioty są unikalne, a które nie.

Innymi słowy, obniżasz próg związany z decyzją o połączeniu dwóch lub więcej obiektów w jeden klaster.

W efekcie łączysz ze sobą coraz więcej obiektów i agregujesz (łączysz) coraz więcej skupisk coraz bardziej zróżnicowanych elementów.

Wreszcie, w ostatnim kroku, wszystkie obiekty są ze sobą połączone. Na tych wykresach osie poziome reprezentują odległość łączenia (w dendrogramach pionowych osie pionowe reprezentują odległość łączenia).

Tak więc dla każdego węzła na wykresie (w którym powstaje nowy klaster) można zobaczyć odległość, na jaką odpowiednie elementy są połączone w nowy pojedynczy klaster.

Gdy dane mają wyraźną „strukturę” w postaci skupisk obiektów, które są do siebie podobne, wówczas struktura ta prawdopodobnie zostanie odzwierciedlona w drzewie hierarchicznym przez różne gałęzie.

W wyniku pomyślnej analizy metodą join staje się możliwe wykrywanie skupień (gałęzi) i ich interpretacja.

Metoda łączenia lub grupowania drzew jest wykorzystywana do tworzenia skupisk niepodobieństwa lub odległości między obiektami. Odległości te można definiować w przestrzeni jednowymiarowej lub wielowymiarowej.

Na przykład, jeśli musisz pogrupować rodzaje jedzenia w kawiarni, możesz wziąć pod uwagę liczbę zawartych w niej kalorii, cenę, subiektywną ocenę smaku itp.

Najbardziej bezpośrednim sposobem obliczenia odległości między obiektami w przestrzeni wielowymiarowej jest obliczenie odległości euklidesowych.

Jeśli masz przestrzeń 2D lub 3D, to ta miara jest rzeczywistą odległością geometryczną między obiektami w przestrzeni (tak jakby odległości między obiektami były mierzone taśmą mierniczą).

Algorytm łączenia nie „obchodzi” jednak o to, czy odległości „dostarczone” w tym celu są rzeczywiste, czy też pochodzą z innych wyprowadzonych miar odległości, co ma większe znaczenie dla badacza; a wyzwaniem dla badaczy jest wybór właściwej metody do konkretnych zastosowań.

Odległość euklidesowa. To wydaje się być najczęstszym rodzajem odległości. Jest to po prostu odległość geometryczna w przestrzeni wielowymiarowej i jest obliczana w następujący sposób:

Zauważ, że odległość euklidesowa (i jej kwadrat) jest obliczana na podstawie oryginalnych danych, a nie danych standaryzowanych.

Jest to zwykły sposób jej obliczania, który ma pewne zalety (np. odległość między dwoma obiektami nie zmienia się po wprowadzeniu do analizy nowego obiektu, który może okazać się wartością odstającą).

Uwaga!

Jednak na odległości mogą mieć duży wpływ różnice między osiami, z których obliczane są odległości. Na przykład, jeśli jedna z osi jest mierzona w centymetrach, a następnie przeliczasz ją na milimetry (poprzez pomnożenie wartości przez 10), to ostateczna odległość euklidesowa (lub kwadrat odległości euklidesowej) obliczona ze współrzędnych będzie zmieniają się radykalnie, w wyniku czego wyniki analizy skupień mogą bardzo różnić się od poprzednich.

Kwadrat odległości euklidesowej. Czasami możesz chcieć podnieść do kwadratu standardową odległość euklidesową, aby nadać większą wagę bardziej odległym obiektom.

Odległość ta jest obliczana w następujący sposób:

Odległość między miastami (odległość Manhattanu). Ta odległość to po prostu średnia z różnic we współrzędnych.

W większości przypadków ta miara odległości prowadzi do takich samych wyników jak w przypadku zwykłej odległości Euclid.

Należy jednak zauważyć, że dla tej miary wpływ dużych różnic indywidualnych (odstających) maleje (ponieważ nie są one podniesione do kwadratu). Odległość Manhattanu obliczana jest ze wzoru:

Odległość Czebyszewa. Ta odległość może być użyteczna, gdy chcemy zdefiniować dwa obiekty jako „różne”, jeśli różnią się one jedną współrzędną (dowolnym wymiarem). Odległość Czebyszewa oblicza się według wzoru:

Dystans mocy. Czasami pożądane jest stopniowe zwiększanie lub zmniejszanie ciężaru związanego z wymiarem, dla którego odpowiednie obiekty są bardzo różne.

Można to osiągnąć za pomocą dystansu potęgowego. Dystans mocy oblicza się według wzoru:

gdzie r i p są parametrami zdefiniowanymi przez użytkownika. Kilka przykładów obliczeń może pokazać, jak „działa” ta miara.

Parametr p odpowiada za stopniowe ważenie różnic w poszczególnych współrzędnych, parametr r odpowiada za stopniowe ważenie dużych odległości między obiektami. Jeżeli oba parametry - r i p są równe dwa, to odległość ta pokrywa się z odległością euklidesową.

Procent niezgodności. Ta miara jest używana, gdy dane są kategoryczne. Odległość tę oblicza się według wzoru:

Zasady stowarzyszenia lub stowarzyszenia

W pierwszym kroku, gdy każdy obiekt jest oddzielnym skupieniem, odległości między tymi obiektami są określane przez wybraną miarę.

Jednak gdy kilka obiektów jest ze sobą powiązanych, pojawia się pytanie, jak określić odległości między skupieniami?

Innymi słowy, potrzebujesz reguły łączenia lub łączenia dla dwóch klastrów. Istnieją tutaj różne możliwości: na przykład możesz połączyć dwa skupienia razem, gdy dowolne dwa obiekty w dwóch skupieniach są bliżej siebie niż odpowiadająca odległość połączenia.

Innymi słowy, używasz „reguły najbliższego sąsiada” do określenia odległości między klastrami; metoda ta nazywana jest metodą pojedynczego łącza.

Ta zasada buduje „włókniste” skupiska, tj. klastry „połączone” tylko pojedynczymi elementami, które akurat są sobie bliższe niż inne.

Alternatywnie można użyć sąsiadów w klastrach, które są najdalej od siebie ze wszystkich innych par funkcji. Ta metoda jest nazywana metodą pełnego linku.

Istnieje również wiele innych metod łączenia klastrów, podobnych do tych, które zostały omówione.

Pojedyncze połączenie (metoda najbliższego sąsiada). Jak opisano powyżej, w tej metodzie odległość między dwoma klastrami jest określana przez odległość między dwoma najbliższymi obiektami (najbliższymi sąsiadami) w różnych klastrach.

Ta reguła musi, w pewnym sensie, łączyć ze sobą obiekty, aby utworzyć klastry, a powstałe klastry są zwykle reprezentowane przez długie „łańcuchy”.

Pełne połączenie (metoda najdalszych sąsiadów). W tej metodzie odległości między klastrami definiuje się jako największą odległość między dowolnymi dwoma obiektami w różnych klastrach (tj. „najdalszymi sąsiadami”).

Nieważona średnia parami. W tej metodzie odległość między dwoma różnymi skupieniami jest obliczana jako średnia odległość między wszystkimi parami obiektów w nich.

Metoda jest skuteczna, gdy obiekty faktycznie tworzą różne „gaje”, ale działa równie dobrze w przypadku klastrów rozszerzonych (typu „łańcuchowego”).

Należy zauważyć, że w swojej książce Sneath i Sokal (1973) wprowadzają skrót UPGMA, aby odnieść się do tej metody jako do metody nieważonych grup par przy użyciu średnich arytmetycznych.

Średnia ważona parami. Metoda jest identyczna z metodą nieważonej średniej parami, z wyjątkiem tego, że wielkość odpowiednich skupień (tj. liczba obiektów, które zawierają) jest używana jako czynnik ważenia w obliczeniach.

Dlatego proponowana metoda powinna być stosowana (a nie poprzednia) przy założeniu nierównych rozmiarów klastrów.

Sneath i Sokal (1973) wprowadzają skrót WPGMA, aby odnieść się do tej metody jako do metody grup ważonych z użyciem średnich arytmetycznych.

Nieważona metoda środka ciężkości. W tej metodzie odległość między dwoma skupiskami jest definiowana jako odległość między ich środkami ciężkości.

Uwaga!

Sneath i Sokal (1973) używają akronimu UPGMC, aby określić tę metodę jako nieważoną metodę grup par z użyciem średniej centroidy.

Ważona metoda środka ciężkości (mediana). Ta metoda jest identyczna jak poprzednia, z tą różnicą, że w obliczeniach stosuje się wagi, aby uwzględnić różnicę między rozmiarami klastrów (tj. liczbę znajdujących się w nich obiektów).

Dlatego też, jeśli istnieją (lub podejrzewa się) znaczące różnice w wielkościach klastrów, ta metoda jest lepsza od poprzedniej.

Sneath i Sokal (1973) użyli skrótu WPGMC, aby odnieść się do niej jako do metody ważonych grup par przy użyciu średniej centroidy.

Metoda oddziałowa. Ta metoda różni się od wszystkich innych metod, ponieważ wykorzystuje metody ANOVA do szacowania odległości między skupieniami.

Metoda minimalizuje sumę kwadratów (SS) dla dowolnych dwóch (hipotetycznych) klastrów, które można utworzyć na każdym kroku.

Szczegóły można znaleźć w Ward (1963). Ogólnie metoda wydaje się być bardzo wydajna, ale ma tendencję do tworzenia małych klastrów.

Wcześniej omówiono tę metodę w kategoriach „obiektów”, które należy pogrupować. We wszystkich innych typach analiz pytanie, które interesuje badacza, jest zwykle wyrażane w postaci obserwacji lub zmiennych.

Okazuje się, że grupowanie, zarówno na podstawie obserwacji, jak i zmiennych, może prowadzić do całkiem interesujących wyników.

Na przykład wyobraźmy sobie, że badacz medyczny zbiera dane na temat różnych cech (zmiennych) stanów (obserwacji) pacjentów z chorobami serca.

Badacz może chcieć pogrupować obserwacje (pacjentów) w celu zidentyfikowania grup pacjentów z podobnymi objawami.

Jednocześnie badacz może chcieć pogrupować zmienne, aby zidentyfikować skupienia zmiennych, które są związane z podobnym stanem fizycznym.e

Po tej dyskusji dotyczącej tego, czy grupować obserwacje, czy zmienne, można by zapytać, dlaczego nie łączyć się w obie strony?

Moduł Cluster Analysis zawiera wydajną procedurę łączenia dwukierunkowego, która właśnie to umożliwia.

Jednak łączenie dwukierunkowe jest stosowane (stosunkowo rzadko) w okolicznościach, w których oczekuje się, że zarówno obserwacje, jak i zmienne jednocześnie przyczynią się do odkrycia znaczących skupień.

Wracając więc do poprzedniego przykładu, możemy założyć, że badacz medyczny musi zidentyfikować skupienia pacjentów, które są podobne w odniesieniu do pewnych skupisk cech kondycji fizycznej.

Trudność w interpretacji uzyskanych wyników wynika z faktu, że podobieństwa między różnymi skupieniami mogą wynikać (lub być przyczyną) pewnych różnic w podzbiorach zmiennych.

Dlatego powstałe klastry są z natury niejednorodne. Być może na początku wydaje się to nieco mgliste; w rzeczywistości, w porównaniu z innymi opisanymi metodami analizy skupień, dwukierunkowe łączenie jest prawdopodobnie najrzadziej stosowaną metodą.

Jednak niektórzy badacze uważają, że oferuje potężne narzędzie do eksploracyjnej analizy danych (więcej informacji można znaleźć w opisie tej metody autorstwa Hartigana (Hartigan, 1975)).

K oznacza metodę

Ta metoda grupowania różni się znacznie od metod aglomeracyjnych, takich jak Union (grupowanie drzew) i Two-Way Union. Załóżmy, że masz już hipotezy dotyczące liczby skupień (według obserwacji lub zmiennej).

Możesz powiedzieć systemowi, aby utworzył dokładnie trzy klastry, tak aby były jak najbardziej różne.

To jest dokładnie ten rodzaj problemu, który rozwiązuje algorytm K-średnich. Ogólnie rzecz biorąc, metoda K-średnich buduje dokładnie K odrębnych klastrów oddalonych od siebie jak najdalej od siebie.

W przykładzie dotyczącym kondycji fizycznej badacz medycyny może mieć „przeczucie” na podstawie swojego doświadczenia klinicznego, że jego pacjenci generalnie dzielą się na trzy różne kategorie.

Uwaga!

Jeśli tak, to średnie różnych miar parametrów fizycznych dla każdego skupienia zapewniłyby ilościowy sposób reprezentacji hipotez badacza (np. pacjenci w skupieniu 1 mają wysoki parametr równy 1, niższy parametr równy 2 itd.).

Z obliczeniowego punktu widzenia można o tej metodzie myśleć jako o analizie wariancji „odwrotnej”. Program rozpoczyna się od K losowo wybranych klastrów, a następnie zmienia przynależność obiektów do nich w celu:

  1. zminimalizować zmienność w ramach klastrów,
  2. maksymalizować zmienność między klastrami.

Metoda ta jest podobna do odwrotnej analizy wariancji (ANOVA) pod tym względem, że test istotności w ANOVA porównuje zmienność międzygrupową i wewnątrzgrupową w testowaniu hipotezy, że średnie grupowe różnią się od siebie.

W grupowaniu K-średnich program przenosi obiekty (tj. obserwacje) z jednej grupy (skupstwa) do drugiej w celu uzyskania najbardziej znaczącego wyniku podczas przeprowadzania analizy wariancji (ANOVA).

Zazwyczaj, po uzyskaniu wyników analizy skupień K-średnich, można obliczyć średnie dla każdego skupienia dla każdego wymiaru, aby ocenić, w jaki sposób skupienia różnią się od siebie.

Najlepiej byłoby, gdyby dla większości, jeśli nie wszystkich, pomiarów wykorzystywanych w analizie uzyskać bardzo różne średnie.

Źródło: http://website/www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Klasyfikacja obiektów według ich cech

Analiza skupień (analiza skupień) – zbiór wielowymiarowych metod statystycznych służących do klasyfikowania obiektów według ich cech, dzielący całość obiektów na jednorodne grupy, które są zbliżone pod względem definiowania kryteriów, wybierające obiekty z określonej grupy.

Klaster to grupa obiektów zidentyfikowana w wyniku analizy skupień na podstawie określonej miary podobieństwa lub różnicy między obiektami.

Przedmiotem są konkretne przedmioty studiów, które należy sklasyfikować. Obiekty w klasyfikacji są z reguły obserwacjami. Na przykład konsumenci produktów, krajów lub regionów, produktów itp.

Chociaż możliwe jest przeprowadzenie analizy skupień według zmiennych. Klasyfikacja obiektów w wielowymiarowej analizie skupień odbywa się według kilku kryteriów jednocześnie.

Mogą to być zarówno zmienne ilościowe, jak i kategoryczne, w zależności od metody analizy skupień. Zatem głównym celem analizy skupień jest znalezienie w próbie grup podobnych obiektów.

Zbiór wielowymiarowych metod statystycznych analizy skupień można podzielić na metody hierarchiczne (aglomeracyjne i dzielące) oraz niehierarchiczne (metoda k-średnich, dwustopniowa analiza skupień).

Nie ma jednak ogólnie przyjętej klasyfikacji metod, a czasami metody analizy skupień obejmują również metody konstruowania drzew decyzyjnych, sieci neuronowych, analizy dyskryminacyjnej i regresji logistycznej.

Zakres analizy skupień, ze względu na jej uniwersalność, jest bardzo szeroki. Analiza skupień znajduje zastosowanie w ekonomii, marketingu, archeologii, medycynie, psychologii, chemii, biologii, administracji publicznej, filologii, antropologii, socjologii i innych dziedzinach.

Oto kilka przykładów zastosowania analizy skupień:

  • medycyna – klasyfikacja chorób, ich objawy, metody leczenia, klasyfikacja grup pacjentów;
  • marketing – zadania optymalizacji asortymentu firmy, segmentacja rynku według grup towarów lub konsumentów, identyfikacja potencjalnego konsumenta;
  • socjologia – podział respondentów na grupy homogeniczne;
  • psychiatria – prawidłowa diagnoza grup objawów ma kluczowe znaczenie dla powodzenia terapii;
  • biologia - klasyfikacja organizmów według grup;
  • gospodarka - klasyfikacja podmiotów Federacji Rosyjskiej według atrakcyjności inwestycyjnej.

Źródło: http://website/www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analiz.html

Ogólne informacje o analizie skupień

Analiza skupień obejmuje zestaw różnych algorytmów klasyfikacji. Częstym pytaniem zadawanym przez badaczy z wielu dziedzin jest sposób organizowania obserwowanych danych w struktury wizualne.

Na przykład biolodzy starają się podzielić zwierzęta na różne gatunki, aby sensownie opisać różnice między nimi.

Zadaniem analizy skupień jest podzielenie początkowego zbioru obiektów na grupy podobnych, bliskich sobie obiektów. Grupy te nazywane są klastrami.

Innymi słowy, analiza skupień jest jednym ze sposobów klasyfikacji obiektów według ich cech. Pożądane jest, aby wyniki klasyfikacji miały sensowną interpretację.

Wyniki uzyskane metodami analizy skupień są wykorzystywane w różnych dziedzinach. W marketingu jest to segmentacja konkurentów i konsumentów.

W psychiatrii prawidłowa diagnoza objawów takich jak paranoja, schizofrenia itp. ma kluczowe znaczenie dla powodzenia terapii.

W zarządzaniu ważna jest klasyfikacja dostawców, identyfikacja podobnych sytuacji produkcyjnych, w których występuje małżeństwo. W socjologii podział respondentów na grupy homogeniczne. W inwestycjach portfelowych ważne jest pogrupowanie papierów wartościowych według ich podobieństwa w trendzie zwrotu, aby na podstawie uzyskanych informacji o giełdzie skompilować optymalny portfel inwestycyjny pozwalający na maksymalizację zwrotu z inwestycji przy danym stopniu ryzyka .

Generalnie, gdy zachodzi potrzeba sklasyfikowania dużej ilości tego typu informacji i przedstawienia jej w formie nadającej się do dalszego przetwarzania, analiza skupień okazuje się bardzo przydatna i skuteczna.

Analiza skupień pozwala na rozważenie dość dużej ilości informacji i znaczne skompresowanie dużych tablic informacji społeczno-gospodarczych, czyniąc je zwartymi i wizualnymi.

Uwaga!

Analiza skupień ma duże znaczenie w odniesieniu do zbiorów charakteryzujących szeregi czasowe rozwój ekonomiczny(na przykład ogólna koniunktura gospodarcza i towarowa).

W tym miejscu można wyodrębnić okresy, w których wartości odpowiednich wskaźników były dość zbliżone, a także określić grupy szeregów czasowych, których dynamika jest najbardziej zbliżona.

W problemach prognozowania społeczno-gospodarczego bardzo obiecujące jest łączenie analizy skupień z innymi metodami ilościowymi (np. z analizą regresji).

Zalety i wady

Analiza skupień pozwala na obiektywną klasyfikację dowolnych obiektów, które charakteryzują się szeregiem cech. Można z tego wyciągnąć szereg korzyści:

  1. Powstałe klastry można interpretować, to znaczy opisywać, jakie grupy faktycznie istnieją.
  2. Poszczególne skupiska mogą być wybijane. Jest to przydatne w przypadkach, gdy w zbiorze danych popełniono pewne błędy, w wyniku których wartości wskaźników dla poszczególnych obiektów mocno odbiegają. Przy stosowaniu analizy skupień takie obiekty przypadają do osobnego skupienia.
  3. Do dalszej analizy można wybrać tylko te klastry, które posiadają interesujące cechy.

Jak każda inna metoda, analiza skupień ma pewne wady i ograniczenia. W szczególności skład i liczba klastrów zależy od wybranych kryteriów podziału.

Redukując początkową macierz danych do postaci bardziej zwartej, mogą wystąpić pewne zniekształcenia, a także indywidualne cechy poszczególnych obiektów mogą zostać utracone przez zastąpienie ich charakterystykami uogólnionych wartości parametrów klastra.

Metody

Obecnie znanych jest ponad sto różnych algorytmów klastrowania. Ich różnorodność tłumaczą nie tylko różne metody obliczeniowe, ale także różne koncepcje leżące u podstaw grupowania.

Pakiet Statistica implementuje następujące metody klastrowania.

  • Algorytmy hierarchiczne - grupowanie drzew. Algorytmy hierarchiczne opierają się na idei klastrowania sekwencyjnego. Na początkowym etapie każdy obiekt jest traktowany jako osobny klaster. W następnym kroku niektóre z klastrów najbliżej siebie zostaną połączone w osobny klaster.
  • Metoda K-średnich. Ta metoda jest najczęściej stosowana. Należy do grupy tzw. referencyjnych metod analizy skupień. Liczba klastrów K jest ustalana przez użytkownika.
  • Dwukierunkowe skojarzenie. W przypadku tej metody grupowanie odbywa się jednocześnie zarówno według zmiennych (kolumny), jak i wyników obserwacji (wiersze).

Procedura łączenia dwukierunkowego jest wykonywana, gdy można oczekiwać, że jednoczesne grupowanie zmiennych i obserwacji przyniesie znaczące wyniki.

Wynikiem procedury są statystyki opisowe dotyczące zmiennych i przypadków, a także dwuwymiarowy wykres kolorów, na którym kodowane są kolorami wartości danych.

Dzięki rozkładowi koloru możesz uzyskać wyobrażenie o jednorodnych grupach.

Normalizacja zmiennych

Podział początkowego zbioru obiektów na skupienia wiąże się z obliczeniem odległości między obiektami i wyborem obiektów, których odległość jest najmniejsza ze wszystkich możliwych.

Najczęściej używaną jest odległość euklidesowa (geometryczna) znana nam wszystkim. Ta metryka odpowiada intuicyjnym wyobrażeniom o bliskości obiektów w przestrzeni (tak jakby odległości między obiektami były mierzone taśmą mierniczą).

Ale dla danej metryki na odległość między obiektami silnie wpływają zmiany skali (jednostek miary). Na przykład, jeśli jedna z cech zostanie zmierzona w milimetrach, a następnie jej wartość zostanie przeliczona na centymetry, odległość euklidesowa między obiektami zmieni się dramatycznie. Doprowadzi to do tego, że wyniki analizy skupień mogą znacznie różnić się od poprzednich.

Jeśli zmienne są mierzone w różnych jednostkach miary, wymagana jest ich wstępna normalizacja, czyli przekształcenie danych początkowych, które przekształca je w wielkości bezwymiarowe.

Normalizacja silnie zniekształca geometrię oryginalnej przestrzeni, co może zmienić wyniki grupowania

W pakiecie Statistica dowolna zmienna x jest znormalizowana według wzoru:

Aby to zrobić, kliknij prawym przyciskiem myszy nazwę zmiennej i wybierz sekwencję poleceń z menu, które się otworzy: Wypełnij/ Standaryzacja bloku/ Standaryzacja kolumn. Wartości znormalizowanej zmiennej staną się równe zeru, a wariancje staną się równe jeden.

Metoda K-średnich w Statistica

Metoda K-średnich dzieli zbiór obiektów na określoną liczbę K różnych skupień znajdujących się w możliwie największej odległości od siebie.

Zazwyczaj, po uzyskaniu wyników analizy skupień K-średnich, można obliczyć średnie dla każdego skupienia dla każdego wymiaru, aby ocenić, w jaki sposób skupienia różnią się od siebie.

Idealnie, powinieneś otrzymać bardzo różne średnie dla większości pomiarów wykorzystywanych w analizie.

Wartości statystyki F uzyskane dla każdego wymiaru są kolejnym wskaźnikiem tego, jak dobrze odpowiedni wymiar rozróżnia klastry.

Jako przykład rozważ wyniki ankiety przeprowadzonej wśród 17 pracowników przedsiębiorstwa na temat zadowolenia ze wskaźników jakości kariery. Tabela zawiera odpowiedzi na pytania kwestionariusza w dziesięciostopniowej skali (1 to wynik minimalny, 10 to maksymalny).

Nazwy zmiennych odpowiadają odpowiedziom na następujące pytania:

  1. SLT - połączenie celów osobistych i celów organizacji;
  2. OSO - poczucie uczciwości płac;
  3. TBD - bliskość terytorialna domu;
  4. PEW - poczucie dobrobytu ekonomicznego;
  5. CR - rozwój kariery;
  6. ZhSR - chęć zmiany pracy;
  7. Płyty OSB to poczucie dobrobytu społecznego.

Korzystając z tych danych, konieczne jest podzielenie pracowników na grupy i dobranie dla każdej z nich najbardziej efektywnych dźwigni kontrolnych.

Jednocześnie różnice między grupami powinny być oczywiste, a wewnątrz grupy respondenci powinni być jak najbardziej podobni.

Do tej pory większość sondaży socjologicznych daje tylko procent głosów: bierze się pod uwagę główną liczbę odpowiedzi pozytywnych lub odsetek niezadowolonych, ale ta kwestia nie jest systematycznie rozpatrywana.

Najczęściej ankieta nie pokazuje trendów w sytuacji. W niektórych przypadkach konieczne jest liczenie nie liczby osób, które są „za” lub „przeciw”, ale odległość lub miarę podobieństwa, czyli określenie grup osób myślących o tym samym.

Procedury analizy skupień można wykorzystać do identyfikacji, na podstawie danych ankietowych, niektórych realnie istniejących relacji cech i na tej podstawie wygenerowania ich typologii.

Uwaga!

Obecność jakichkolwiek a priori hipotez socjologa podczas pracy z procedurami analizy skupień nie jest warunkiem koniecznym.

W programie Statistica analiza skupień odbywa się w następujący sposób.

Przy wyborze liczby klastrów kieruj się następującymi zasadami: liczba klastrów w miarę możliwości nie powinna być zbyt duża.

Odległość, na której łączyły się obiekty danego skupienia, powinna, jeśli to możliwe, być znacznie mniejsza niż odległość, na której coś innego łączy się z tym skupieniem.

Przy wyborze liczby klastrów najczęściej jest kilka poprawnych rozwiązań jednocześnie.

Interesuje nas na przykład to, jak odpowiedzi na pytania zawarte w ankiecie korelują ze zwykłymi pracownikami i kierownictwem przedsiębiorstwa. Dlatego wybieramy K=2. Aby uzyskać dalszą segmentację, możesz zwiększyć liczbę klastrów.

  1. wybrać obserwacje o maksymalnej odległości między centrami klastrów;
  2. sortuj odległości i wybieraj obserwacje w regularnych odstępach czasu (ustawienie domyślne);
  3. weź pierwsze centra obserwacyjne i dołącz do nich resztę obiektów.

Opcja 1 jest odpowiednia dla naszych celów.

Wiele algorytmów grupowania często „narzuca” strukturę, która nie jest nieodłączna od danych i dezorientuje badacza. Dlatego niezwykle konieczne jest zastosowanie kilku algorytmów analizy skupień i wyciąganie wniosków na podstawie ogólnej oceny wyników algorytmów.

Wyniki analizy można wyświetlić w wyświetlonym oknie dialogowym:

Jeśli wybierzesz zakładkę Wykres średnich, zostanie wykreślony wykres współrzędnych centrów skupień:


Każda przerywana linia na tym wykresie odpowiada jednemu ze skupień. Każdemu podziałowi osi poziomej wykresu odpowiada jedna ze zmiennych uwzględnionych w analizie.

Oś pionowa odpowiada średnim wartościom zmiennych dla obiektów wchodzących w skład każdego ze skupień.

Można zauważyć, że istnieją znaczne różnice w nastawieniu obu grup osób do kariery usługowej niemal we wszystkich kwestiach. Tylko w jednej kwestii panuje całkowita jednomyślność - w sensie dobrobytu społecznego (OSB), a raczej jego braku (2,5 punktu na 10).

Można przyjąć, że klaster 1 reprezentuje pracowników, a klaster 2 reprezentuje zarządzanie. Menedżerowie są bardziej zadowoleni z rozwoju kariery (CR), połączenia celów osobistych i celów organizacyjnych (SOL).

Mają wyższe poczucie dobrobytu ekonomicznego (SEW) i poczucie sprawiedliwości płacowej (SWA).

Są mniej zaniepokojeni bliskością domu niż pracownicy, prawdopodobnie z powodu mniejszych problemów transportowych. Ponadto menedżerowie mają mniejszą chęć do zmiany pracy (JSR).

Pomimo tego, że pracownicy dzielą się na dwie kategorie, na większość pytań udzielają względnie takich samych odpowiedzi. Innymi słowy, jeśli coś nie odpowiada ogólnej grupie pracowników, to samo nie odpowiada kierownictwu wyższego szczebla i odwrotnie.

Harmonizacja wykresów pozwala stwierdzić, że dobrostan jednej grupy znajduje odzwierciedlenie w dobrobycie innej.

Klaster 1 nie jest zadowolony z bliskości terytorialnej domu. Ta grupa to główna część pracowników, którzy przyjeżdżają do przedsiębiorstwa głównie z różnych części miasta.

Dlatego możliwe jest zaoferowanie najwyższemu kierownictwu przeznaczenia części zysków na budowę mieszkań dla pracowników przedsiębiorstwa.

Istotne różnice widoczne są w nastawieniu obu grup ludzi do kariery w służbie. Zadowoleni z rozwoju kariery pracownicy, u których występuje duża zbieżność celów osobistych z celami organizacji, nie mają ochoty na zmianę pracy i odczuwają satysfakcję z wyników swojej pracy.

Z kolei pracownicy, którzy chcą zmienić pracę i są niezadowoleni z wyników swojej pracy, nie są zadowoleni z powyższych wskaźników. Kierownictwo wyższego szczebla powinno zwracać szczególną uwagę na obecną sytuację.

Wyniki analizy wariancji dla każdego atrybutu są wyświetlane po naciśnięciu przycisku Analiza wariancji.

Wyświetlane są sumy kwadratów odchyleń obiektów od centrów skupień (SS W obrębie) oraz sumy kwadratów odchyleń między centrami skupień (SS Pomiędzy), wartości statystyki F i poziomy istotności p.

Uwaga!

W naszym przykładzie poziomy istotności dla dwóch zmiennych są dość duże, co tłumaczy się małą liczbą obserwacji. W pełnej wersji badania, którą można znaleźć w pracy, hipotezy o równości średnich dla ośrodków skupień są odrzucane na poziomach istotności poniżej 0,01.

Przycisk Zapisz klasyfikacje i odległości wyświetla liczbę obiektów zawartych w każdym skupieniu oraz odległości obiektów do środka każdego skupienia.

W tabeli przedstawiono numery przypadków (CASE_NO), które tworzą skupienia z numerami CLUSTER oraz odległości od środka każdego skupienia (DISTANCE).

Informacje o obiektach należących do klastrów można zapisać do pliku i wykorzystać w dalszej analizie. W tym przykładzie porównanie uzyskanych wyników z ankietami wykazało, że skupienie 1 składa się głównie ze zwykłych pracowników, a skupienie 2 – menedżerów.

Widać zatem, że przy przetwarzaniu wyników ankiety analiza skupień okazała się potężną metodą pozwalającą na wyciąganie wniosków, do których nie można dojść konstruując histogram średnich lub obliczając odsetek osób zadowolonych z różnych wskaźników jakość życia zawodowego.

Grupowanie drzew jest przykładem algorytmu hierarchicznego, którego zasadą jest sekwencyjne grupowanie najpierw najbliższych, a następnie coraz bardziej odległych od siebie elementów w klaster.

Większość z tych algorytmów zaczyna się od macierzy podobieństwa (odległości), a każdy pojedynczy element jest początkowo traktowany jako osobny klaster.

Po załadowaniu modułu analizy skupień i wybraniu opcji Łączenie (grupowanie drzew) możesz zmienić następujące parametry w oknie wprowadzania parametrów klastrowania:

  • Dane początkowe (wejście). Mogą mieć postać macierzy badanych danych (dane surowe) oraz macierzy odległości (macierz odległości).
  • Obserwacje skupień (Klaster) (Przypadki (surowe)) lub zmienne (Zmienne (kolumny)), opisujące stan obiektu.
  • Miary odległości. Tutaj możesz wybrać następujące miary: odległości euklidesowe, kwadratowe odległości euklidesowe, odległość między miastami (Manhattan), metryka odległości Czebyczowa, moc...), procent niezgodności (procent niezgodności).
  • Metoda grupowania (reguła łączenia (powiązania)). Dostępne są tutaj następujące opcje: Pojedyncze powiązanie (Pojedyncze powiązanie), Pełne powiązanie (Metoda najdalszych sąsiadów) (Pełne powiązanie), Nieważona średnia para-grupa, Ważona średnia para-grupa ), Nieważony centroid para-grupa, Para ważona -grupa centroidu (mediana), metoda Warda.

W wyniku grupowania budowany jest dendrogram poziomy lub pionowy – wykres, na którym wyznaczane są odległości między obiektami i skupieniami podczas ich sekwencyjnego łączenia.

Struktura drzewiasta wykresu pozwala na definiowanie skupień w zależności od wybranego progu - danej odległości pomiędzy skupieniami.

Dodatkowo wyświetlana jest macierz odległości między oryginalnymi obiektami (matryca odległości); średnie i odchylenia standardowe dla każdego obiektu źródłowego (statystyka dyspozycyjna).

Dla rozważanego przykładu przeprowadzimy analizę skupień zmiennych z ustawieniami domyślnymi. Powstały dendrogram pokazano na rysunku.


Oś pionowa dendrogramu przedstawia odległości między obiektami oraz między obiektami i skupiskami. Tak więc odległość między zmiennymi SEB i OSD jest równa pięciu. Te zmienne na pierwszym etapie są łączone w jedno skupienie.

Poziome segmenty dendrogramu są rysowane na poziomach odpowiadających odległościom progowym wybranym dla danego etapu grupowania.

Z wykresu widać, że pytanie „chęć zmiany pracy” (JSR) tworzy osobny klaster. Ogólnie rzecz biorąc, chęć wyrzucenia gdziekolwiek odwiedza wszystkich w równym stopniu. Ponadto osobnym skupieniem jest kwestia bliskości terytorialnej do domu (LHB).

Pod względem ważności zajmuje drugie miejsce, co potwierdza wniosek o potrzebie budownictwa mieszkaniowego, sformułowany na podstawie wyników badania metodą K-średnich.

Poczucie dobrobytu ekonomicznego (PEW) i sprawiedliwego wynagrodzenia (PWA) są połączone - to jest blok problemów ekonomicznych. Postęp kariery (CR) i połączenie celów osobistych i celów organizacyjnych (COL) są również połączone.

Inne metody grupowania, a także wybór innego rodzaju odległości nie prowadzą do znaczącej zmiany dendrogramu.

Wyniki:

  1. Analiza skupień to potężne narzędzie do eksploracyjnej analizy danych i badań statystycznych w dowolnym obszarze tematycznym.
  2. Program Statistica implementuje zarówno hierarchiczne, jak i strukturalne metody analizy skupień. Zalety tego pakietu statystycznego wynikają z jego możliwości graficznych. Przedstawiono dwuwymiarowe i trójwymiarowe reprezentacje graficzne uzyskanych skupień w przestrzeni badanych zmiennych oraz wyniki hierarchicznej procedury grupowania obiektów.
  3. Konieczne jest zastosowanie kilku algorytmów analizy skupień i wyciąganie wniosków na podstawie ogólnej oceny wyników algorytmów.
  4. Analiza skupień może być uznana za udaną, jeśli jest przeprowadzana na różne sposoby, wyniki są porównywane i znajdowane są wspólne wzorce oraz stabilne klastry, niezależnie od metody grupowania.
  5. Analiza skupień pozwala zidentyfikować sytuacje problemowe i nakreślić sposoby ich rozwiązania. Dlatego tę metodę statystyki nieparametrycznej można uznać za integralną część analizy systemowej.

analiza skupień nazywane są różne sformalizowane procedury konstruowania klasyfikacji obiektów. Wiodącą nauką w rozwoju analizy klastrowej była biologia. Temat analizy skupień (z angielskiego „cluster” – grono, bundle, group) sformułował w 1939 roku psycholog Robert Tryon. Klasykami analizy skupień są amerykańscy taksonomowie Robert Sokal i Peter Snit. Jednym z ich najważniejszych osiągnięć w tej dziedzinie jest książka „Zasady taksonomii numerycznej”, wydana w 1963 roku. Zgodnie z główną ideą autorów, klasyfikacja nie powinna opierać się na mieszaninie słabo sformalizowanych sądów dotyczących podobieństwa i relacji obiektów, ale na wynikach sformalizowanego przetwarzania wyników matematycznego obliczania podobieństw / różnice pomiędzy klasyfikowanymi obiektami. Do realizacji tego zadania potrzebne były odpowiednie procedury, których opracowanie podjęli się autorzy.

Główne etapy analizy skupień są następujące:
1. wybór porównywalnych obiektów;
2. wybór zestawu cech do porównania oraz opis obiektów według tych cech;
3. obliczenie miary podobieństwa między obiektami (lub miary różnicy między obiektami) zgodnie z wybranym metryczny;
4. grupowanie obiektów w klastry za pomocą jednego lub drugiego procedury scalające;
5. sprawdzenie stosowalności powstałego rozwiązania klastrowego.

Zatem najważniejszymi cechami procedury grupowania są wybór metryki (znaczna liczba różnych metryk jest używana w różnych sytuacjach) oraz wybór procedury łączenia (a w tym przypadku wiele różnych opcji). Jedna lub druga metryka i procedury łączenia są bardziej odpowiednie dla różnych sytuacji, ale do pewnego stopnia wybór między nimi jest kwestią gustu i tradycji. Jak szerzej wyjaśniono w artykule Klastry, skarby i chimera obiektywizmu, nadzieja, że ​​analiza skupień doprowadzi do skonstruowania klasyfikacji, która w żaden sposób nie jest zależna od arbitralności badacza, okazuje się nieosiągalna. Spośród pięciu etapów badania z wykorzystaniem analizy skupień, tylko etap 4 nie wiąże się z podjęciem mniej lub bardziej arbitralnej decyzji, która ma wpływ na wynik końcowy. Zarówno dobór obiektów, jak i dobór cech oraz dobór metryk wraz z procedurą scalania znacząco wpływają na wynik końcowy. Wybór ten może zależeć od wielu okoliczności, w tym od jawnych i ukrytych preferencji oraz oczekiwań związanych z badaniem. Niestety ta okoliczność wpływa nie tylko na wynik analizy skupień. Wszystkie „obiektywne” metody napotykają podobne problemy, w tym: wszystko metody kladystyczne.

Czy istnieje jedno poprawne rozwiązanie, które można znaleźć, wybierając zestaw obiektów, zestaw funkcji, typ metryki i procedurę łączenia? Nie. Aby to udowodnić, przedstawiamy fragment artykułu, do którego link podano w poprzednim akapicie.

"W rzeczywistości nie zawsze możemy nawet stanowczo odpowiedzieć na pytanie, które przedmioty są do siebie bardziej podobne, a które bardziej różne. Niestety, po prostu nie ma ogólnie przyjętych (nie mówiąc już o „obiektywnych”) kryteriów wyboru miary podobieństw i różnic między sklasyfikowanymi obiektami.

Który obiekt jest bardziej podobny do obiektu A: B czy C? Jeśli użyjemy odległości jako metryki podobieństwa, to na C: |AC|<|AB|. А если полагаться на корреляцию между показанными на рисунке признаками (которую можно описать как угол между вектором, идущим к объекту из начала координат, и осью абсцисс), то на B: . Jaka jest zatem właściwa droga? I nie ma jednej poprawnej odpowiedzi. Z jednej strony dorosła ropucha wygląda bardziej jak dorosła żaba (obie dorosłe osobniki), z drugiej bardziej przypomina młodą ropuchę (obie ropuchy)! Prawidłowa odpowiedź zależy od tego, co uważamy za ważniejsze.".

Analiza skupień znalazła najszersze zastosowanie we współczesnej nauce. Niestety w dużej części przypadków, w których jest używany, lepiej byłoby zastosować inne metody. W każdym razie biolodzy specjaliści muszą jasno rozumieć podstawową logikę analizy skupień i tylko w tym przypadku będą mogli ją zastosować tam, gdzie jest ona adekwatna, a nie stosować, gdy wybór innej metody jest optymalny .

8.2. Przykład analizy skupień „na palcach”

Aby wyjaśnić typową logikę analizy skupień, rozważmy jej przykładowy przykład. Rozważmy zbiór 6 obiektów (oznaczonych literami) charakteryzujących się 6 cechami najprostszego typu: alternatywa, przyjmująca jedną z dwóch wartości: charakterystyczną (+) i niecharakterystyczną (-). Opis obiektów zgodnie z przyjętymi cechami nazywany jest macierzą „prostokątną”. W naszym przypadku mówimy o matrycy 6×6, czyli można ją uznać za dość „kwadratową”, ale w ogólnym przypadku liczba obiektów w analizie może nie być równa liczbie cech, a macierz „prostokątna” może mieć różną liczbę wierszy i kolumn. Więc ustawmy " macierz prostokątna (matryca obiektów/cech):

Wybór obiektów i ich opis według pewnego zestawu cech odpowiadają dwóm pierwszym etapom analizy skupień. Kolejnym etapem jest budowa macierzy podobieństw lub różnic (macierz „kwadratowa”, macierz obiekt/przedmiot). Aby to zrobić, musimy wybrać metrykę. Ponieważ nasz przykład jest warunkowy, warto wybrać najprostszą metrykę. Jak najłatwiej określić odległość między obiektami A i B? Policz różnice między nimi. Jak widać, obiekty A i B różnią się cechami 3 i 5, więc odległość między tymi dwoma obiektami odpowiada dwóm jednostkom.

Korzystając z tej metryki, konstruujemy „ macierz kwadratowa (macierz obiektów/obiektów). Łatwo zauważyć, że taka macierz składa się z dwóch symetrycznych połówek i tylko jedną z tych połówek można wypełnić:

W tym przypadku zbudowaliśmy macierz różnic. Macierz podobieństwa wyglądałaby tak, tylko na każdej pozycji byłaby wartość równa różnicy między maksymalną odległością (6 jednostek) a różnicą między obiektami. Oczywiście dla pary A i B podobieństwo wyniesie 4 jednostki.

Które dwa obiekty są najbliżej siebie? B i F różnią się tylko jedną cechą. Istotą analizy skupień jest łączenie podobnych obiektów w skupienie. Połącz obiekty B i F w klaster (BF). Pokażmy to na schemacie. Jak widać, obiekty są łączone na poziomie odpowiadającym odległości między nimi.

Ryż. 8.2.1. Pierwszy krok grupowania warunkowego zestawu 6 obiektów

Teraz nie mamy sześciu obiektów, ale pięć. Rekonstruujemy macierz „kwadratową”. Aby to zrobić, musimy określić, jaka jest odległość od każdego obiektu do gromady. Odległość od A do B wynosił 2 jednostki, a A do F 3 jednostki. Jaka jest odległość od A do (bf)? Tutaj nie ma poprawnej odpowiedzi. Tutaj spójrz, jak te trzy obiekty znajdują się względem siebie.

Ryż. 8.2.2. Względna pozycja trzech obiektów

Być może odległość od obiektu do grupy to odległość od obiektu do obiektu znajdującego się najbliżej niego w grupie, tj. czyli │A(BF) │=│AB │? Ta logika pasuje dołącz przez maksymalne podobieństwo.

A może odległość od obiektu do grupy to odległość od obiektu do obiektu najbardziej oddalonego od niego w grupie, tj. np. │A(BF) │=│AF │? Ta logika pasuje minimalne podobieństwo dołączyć.

Można również uznać, że odległość od obiektu do grupy jest średnią arytmetyczną odległości tego obiektu od każdego z obiektów w grupie, t tj. │A(BF) =(│AB │+│AF │)/2. To rozwiązanie nazywa się łączenie za pomocą podobieństwa.

Wszystkie te trzy rozwiązania i znaczna liczba innych, nie opisanych tutaj, są poprawne. Naszym zadaniem jest dobranie rozwiązania bardziej adekwatnego do kategorii, do której należą nasze dane. Przywiązanie przez maksymalne podobieństwo prowadzi ostatecznie do długich, przypominających wstążkę skupisk. Według minimum - do rozdrobnienia grup. Wybierając między trzema opisanymi opcjami, w biologii częściej stosuje się akcesję według przeciętnego podobieństwa. Używamy ich również. W takim przypadku po pierwszym kroku grupowania macierz „kwadratowa” będzie wyglądać tak.

Teraz najbliższą parą obiektów są D i E. Połączmy je też.

Ryż. 8.2.3. Drugi etap grupowania warunkowego zestawu 6 obiektów

Przebudujmy macierz „kwadratową” dla czterech obiektów.

Widzimy, że istnieją dwie możliwości dołączenia na poziomie 2.5: dołączanie A do (BF) i załącznik (BF) do (DE). Który wybrać?

Mamy różne możliwości dokonania tego wyboru. Można to zrobić losowo. Możesz przyjąć jakąś formalną zasadę, która pozwoli ci dokonać wyboru. I możesz zobaczyć, które z rozwiązań zapewni najlepszą opcję klastrowania. Skorzystajmy z ostatniej opcji. Zaimplementujmy najpierw pierwszą możliwość.

Ryż. 8.2.4. Pierwsza wersja trzeciego kroku grupowania warunkowego zestawu 6 obiektów

Wybierając tę ​​opcję musielibyśmy zbudować taką „kwadratową” matrycę 3×3.

Gdybyśmy wybrali drugą opcję trzeciego kroku, mielibyśmy następujący obraz.

Ryż. 8.2.5. Drugi wariant trzeciego kroku grupowania warunkowego zbioru 6 obiektów

Odpowiada to następującej macierzy 3×3:

Otrzymane macierze 3×3 można porównać, aby upewnić się, że w drugim wariancie uzyskano bardziej zwarte grupowanie obiektów. Konstruując klasyfikację obiektów za pomocą analizy skupień powinniśmy dążyć do identyfikacji grup, które łączą podobne obiekty. Im większe podobieństwo obiektów w grupach, tym lepsza klasyfikacja. Dlatego wybieramy drugą opcję trzeciego kroku grupowania. Oczywiście moglibyśmy wykonać następujące kroki (i podzielić pierwszą opcję na dwie dodatkowe podopcje), ale ostatecznie bylibyśmy przekonani, że najlepszą opcją dla trzeciego kroku grupowania jest dokładnie ta pokazana na ryc. 8.5. Zatrzymujemy się na tym.

W takim przypadku kolejnym krokiem jest scalenie obiektów A i C pokazane na ryc. 8.6.

Ryż. 8.2.6. Czwarty krok grupowania

Budujemy macierz 2×2:

Teraz nie ma co wybierać. Połącz dwa pozostałe klastry na wymaganym poziomie. Zgodnie z przyjętym stylem budowania klastra „drzew”, dodajmy jeszcze jeden „pień”, który rozciąga się do poziomu maksymalnej możliwej odległości między obiektami o danym zestawie cech.

Ryż. 8.2.7. Piąty i ostatni krok grupowania

Wynikowy obraz to wykres drzewa (zbiór wierzchołków i połączeń między nimi). Wykres ten jest skonstruowany w taki sposób, że tworzące go linie przecinają się (pokazaliśmy te skrzyżowania jako "mosty"). Bez zmiany charakteru relacji między obiektami graf można przebudować tak, aby nie było w nim skrzyżowań. Odbywa się to na ryc. 8.2.8.

Ryż. 8.2.8. Ostateczny widok grafu drzewa otrzymanego w wyniku grupowania

Analiza skupień naszego przykładu warunkowego została zakończona. Musimy tylko zrozumieć, co mamy.

8.3. Podstawowe ograniczenia i wady analizy skupień

Jak interpretować wykres przedstawiony na ryc. 8.2.8? Nie ma jednej odpowiedzi. Aby odpowiedzieć na to pytanie, musisz zrozumieć, jakie dane i w jakim celu skupiliśmy. „Na powierzchni” nasuwa się wniosek, że zarejestrowaliśmy, iż pierwotny zestaw 6 obiektów składa się z trzech par. Patrząc na powstały wykres, trudno w to wątpić. Czy jednak ten wniosek jest słuszny?

Wróć do pierwszej „kwadratowej” macierzy 6×6 i upewnij się, że obiekt E jest oddalony o dwie jednostki od obiektu D i obiektu F. Podobieństwo E i D na końcowym „drzewie” jest odzwierciedlone, ale fakt, że obiekt E był tak samo zbliżony do obiektu F - zgubiony bez śladu! Jak to wyjaśnić?

W wyniku grupowania, co pokazano na ryc. 8.2.8, w ogóle nie ma informacji o odległości│EF │, są tylko informacje o odległościach │DE │ i │(BF)(DE) │!

Każda macierz „prostokątna”, w przypadku wybrania określonej metryki i sposobu przyłączenia, odpowiada jednej macierzy „kwadratowej”. Jednak każda macierz „kwadratowa” może odpowiadać wielu „prostokątnym” macierzom. Po każdym kroku analizy każda poprzednia macierz „kwadratowa” odpowiada kolejnej, ale na podstawie kolejnej nie mogliśmy przywrócić poprzedniej. Oznacza to, że na każdym etapie analizy skupień pewna część informacji o różnorodności pierwotnego zbioru obiektów jest nieodwracalnie tracona.

Ta okoliczność jest jedną z poważnych wad analizy skupień.

Kolejny z podstępnych mankamentów analizy skupień jest wspomniany w artykule

© imht.ru, 2022
Procesy biznesowe. Inwestycje. Motywacja. Planowanie. Realizacja