Klaszteranalízis osztályozás a felépített modell alapján. Klaszterelemzés alkalmazása Microsoft Excelben. Adatbányászati ​​módszerekkel megoldott feladatok

30.03.2020

A gazdasági problémák megoldásának egyik eszköze a klaszteranalízis. Segítségével a fürtök és az adattömb egyéb objektumai csoportokba sorolhatók. Ez a technika alkalmazható Excel program. Lássuk, hogyan valósul meg ez a gyakorlatban.

A klaszteranalízis segítségével lehetőség nyílik a vizsgált tulajdonság szerinti minta vételére. Fő feladata egy többdimenziós tömb homogén csoportokra bontása. Csoportosítási kritériumként egy adott paraméter szerinti páros korrelációs együtthatót vagy euklideszi távolságot használunk az objektumok között. Az egymáshoz legközelebb álló értékek egy csoportba kerülnek.

Bár leggyakrabban ezt a fajt az elemzést a közgazdaságtan alkalmazza, a biológiában (állatok osztályozására), a pszichológiában, az orvostudományban és az emberi tevékenység számos más területén is használható. A klaszteranalízis felhasználható erre a célra standard készlet Excel eszközök.

Használati példa

Öt objektumunk van, amelyeket két vizsgált paraméter jellemez - xÉs y.

klaszteranalízis

A legtöbb kutató hajlamos azt hinni, hogy a „klaszteranalízis” kifejezés most először jelenik meg. fürt- csomó, alvadék, csomó) javasolta R. Trion matematikus. Ezt követően számos olyan kifejezés merült fel, amelyeket ma a "klaszteranalízis" kifejezés szinonimájának tekintenek: automatikus osztályozás; botriológia.

A klaszteranalízis egy többváltozós statisztikai eljárás, amely egy objektummintáról információkat tartalmazó adatokat gyűjt, majd az objektumokat viszonylag homogén csoportokba (klaszterekbe) rendezi (Q-clustering, vagy Q-technika, megfelelő klaszterelemzés). Klaszter - egy közös tulajdonsággal jellemezhető elemcsoport, a klaszteranalízis fő célja hasonló objektumok csoportjainak megtalálása a mintában. A klaszteranalízis alkalmazási köre igen széles: használják a régészetben, az orvostudományban, a pszichológiában, a kémiában, a biológiában, a közigazgatásban, a filológiában, az antropológiában, a marketingben, a szociológiában és más tudományterületeken. Az alkalmazás egyetemessége azonban nagyszámú, egymással össze nem egyeztethető kifejezés, módszer és megközelítés megjelenéséhez vezetett, amelyek megnehezítik a klaszteranalízis egyértelmű használatát és következetes értelmezését. Orlov A. I. a következő megkülönböztetést javasolja:

Feladatok és feltételek

A klaszteranalízis a következőket hajtja végre fő feladatok:

  • Tipológia vagy osztályozás kidolgozása.
  • Hasznos fogalmi sémák feltárása az objektumok csoportosításához.
  • Hipotézisek generálása adatfeltárás alapján.
  • Hipotézisvizsgálat vagy kutatás annak megállapítására, hogy az így vagy úgy azonosított típusok (csoportok) valóban jelen vannak-e a rendelkezésre álló adatokban.

A vizsgálat tárgyától függetlenül a klaszteranalízis alkalmazása magában foglalja következő lépések:

  • Mintavétel a klaszterezéshez. Nyilvánvaló, hogy csak a mennyiségi adatokat célszerű klaszterezni.
  • Egy olyan változóhalmaz definíciója, amely alapján a mintában lévő objektumok kiértékelődnek, azaz egy jellemzőtér.
  • Az objektumok közötti hasonlóság (vagy különbség) egyik vagy másik mértékének értékeinek kiszámítása.
  • A klaszterelemzési módszer alkalmazása hasonló objektumok csoportjainak létrehozására.
  • A klasztermegoldás eredményeinek validálása.

A klaszterelemzés a következőket mutatja be adatkövetelmények:

  1. a mutatók nem korrelálhatnak egymással;
  2. a mutatók nem mondanak ellent a mérési elméletnek;
  3. a mutatók eloszlásának közel kell lennie a normálhoz;
  4. a mutatóknak meg kell felelniük a „stabilitás” követelményének, ami azt jelenti, hogy véletlenszerű tényezők nem befolyásolják értékeiket;
  5. a mintának homogénnek kell lennie, nem tartalmazhat "kiugró értékeket".

Az adatokkal szemben támasztott két alapvető követelmény leírása található - az egységesség és a teljesség:

A homogenitás megköveteli, hogy a táblázatban szereplő összes entitás azonos jellegű legyen. A teljesség követelménye, hogy a halmazok énÉs J bemutatta a vizsgált jelenség megnyilvánulási formáinak teljes leírását. Ha egy táblázatot tekintünk, amelyben én egy gyűjtemény, és J- az ezt a sokaságot leíró változók halmaza, akkor reprezentatív minta legyen a vizsgált sokaságból, és a jellemzők rendszere J kielégítő vektoros reprezentációt kell adnia az egyedekről én kutatói szemszögből.

Ha a klaszteranalízist faktoranalízis előzi meg, akkor a mintát nem kell „javítani” - a megadott követelményeket maga a faktormodellezési eljárás automatikusan végrehajtja (van még egy előny - a z-standardizálás a mintára nézve negatív következmények nélkül; ha közvetlenül klaszteranalízisre végezzük, az a csoportok szétválasztásának egyértelműségének csökkenéséhez vezethet). Ellenkező esetben a mintát módosítani kell.

A klaszterezési problémák tipológiája

Bemeneti típusok

BAN BEN modern tudomány A bemeneti adatok feldolgozására többféle algoritmust használnak. Az objektumok jellemzők alapján történő összehasonlításával végzett elemzés (a legelterjedtebb a biológiai tudományokban) ún K- az elemzés típusa, jellemzők összehasonlítása esetén objektumok alapján - R- az elemzés típusa. Vannak kísérletek hibrid típusú elemzések alkalmazására (pl. RQ elemzés), de ezt a módszertant még nem dolgozták ki megfelelően.

A klaszterezés céljai

  • Adatok megértése a klaszterstruktúra azonosításával. A minta hasonló objektumok csoportjaira bontása lehetővé teszi a további adatfeldolgozás és döntéshozatal egyszerűsítését azáltal, hogy minden klaszterre saját elemzési módszert alkalmaz (az „oszd meg és uralkodj” stratégia).
  • Adattömörítés. Ha a kezdeti minta túl nagy, akkor csökkenthető, így minden klaszterből az egyik legtipikusabb képviselő marad.
  • újdonság észlelése. újdonság észlelése). A rendszer olyan atipikus objektumokat választ ki, amelyek nem csatolhatók egyik fürthöz sem.

Az első esetben a klaszterek számát próbálják csökkenteni. A második esetben fontosabb az egyes klasztereken belüli objektumok nagyfokú hasonlóságának biztosítása, és tetszőleges számú klaszter lehet. A harmadik esetben azok az egyedi objektumok, amelyek egyik klaszterbe sem illeszkednek, a legnagyobb érdeklődésre számot tartóak.

Mindezekben az esetekben alkalmazható a hierarchikus klaszterezés, amikor a nagy klasztereket kisebbekre bontják, amelyek viszont még kisebbre, stb. Az ilyen feladatokat taxonómiai feladatoknak nevezzük. A taxonómia eredménye egy faszerű hierarchikus struktúra. Ezenkívül minden objektumot az összes olyan klaszter felsorolása jellemez, amelyekhez tartozik, általában a nagytól a kicsiig.

Klaszterezési módszerek

A klaszterezési módszereknek nincs általánosan elfogadott osztályozása, de V. S. Berikov és G. S. Lbov határozott próbálkozása megjegyezhető. Összefoglalni különféle besorolások A klaszterezési módszereknél több csoport különíthető el (egyes módszerek egyszerre több csoporthoz is hozzárendelhetők, ezért javasolt ezt a tipizálást a klaszterezési módszerek valós osztályozásának közelítésének tekinteni):

  1. Valószínűségi megközelítés. Feltételezzük, hogy minden vizsgált objektum a k osztály valamelyikébe tartozik. Egyes szerzők (például A. I. Orlov) úgy vélik, hogy ez a csoport egyáltalán nem tartozik a klaszterezéshez, és „diszkrimináció” néven ellenzik azt, vagyis az objektumok valamelyik ismert csoporthoz való hozzárendelését (képzési minták).
  2. Mesterséges intelligencia rendszereken alapuló megközelítések. Nagyon feltételes csoport, mivel sok mesterséges intelligencia módszer létezik, és módszertanilag is nagyon különböznek egymástól.
  3. logikus megközelítés. A dendrogram felépítése döntési fa segítségével történik.
  4. Gráfelméleti megközelítés.
    • Grafikon klaszterező algoritmusok
  5. Hierarchikus megközelítés. Beágyazott csoportok (különböző sorrendű klaszterek) jelenlétét feltételezzük. Az algoritmusokat pedig agglomeratív (egyesítő) és osztó (elválasztó) részekre osztják. A jellemzők száma szerint néha megkülönböztetnek monotetikus és politetikus osztályozási módszereket.
    • Hierarchikus felosztási klaszterezés vagy taxonómia. A klaszterezési problémákat a kvantitatív taxonómia veszi figyelembe.
  6. Egyéb módszerek. Nem szerepelt az előző csoportokban.
    • Statisztikai klaszterezési algoritmusok
    • Klaszterek együttese
    • A KRAB család algoritmusai
    • Szitálási módszeren alapuló algoritmus
    • DBSCAN stb.

A 4. és 5. megközelítést néha a strukturális vagy geometriai megközelítés elnevezéssel kombinálják, amely a közelség formalizáltabb fogalmával rendelkezik. A felsorolt ​​módszerek közötti jelentős különbségek ellenére mindegyik az eredetire támaszkodik. tömörségi hipotézis»: az objektumtérben minden közeli objektumnak ugyanabba a klaszterbe kell tartoznia, és minden különböző objektumnak különböző klaszterben kell lennie.

A klaszterezési probléma formális nyilatkozata

Legyen objektumok halmaza, klaszterek számainak (neveinek, címkéinek) halmaza. Az objektumok közötti távolságfüggvény adott. Az objektumok véges tanítókészlete létezik. A mintát nem átfedő részhalmazokra kell felosztani, ún klaszterek, így minden klaszter metrikusan közeli objektumokból áll, és a különböző klaszterek objektumai jelentősen eltérnek egymástól. Ebben az esetben minden objektumhoz egy fürtszám tartozik.

Klaszterezési algoritmus egy olyan függvény, amely bármely objektumot fürtszámhoz rendel. A halmaz bizonyos esetekben előre ismert, de gyakrabban a klaszterek optimális számának meghatározása a feladat egyik vagy másik szempontjából. minőségi kritériumok klaszterezés.

A klaszterezés (un-supervised learning) abban különbözik az osztályozástól (felügyelt tanulás), hogy az eredeti objektumok címkéi kezdetben nincsenek beállítva, sőt maga a halmaz ismeretlen is lehet.

A klaszterezési probléma megoldása alapvetően nem egyértelmű, ennek több oka is van (több szerző szerint):

  • nincs egyedülállóan legjobb kritérium a klaszterezés minőségére. Számos heurisztikus kritérium ismert, valamint számos olyan algoritmus, amelyek nem rendelkeznek egyértelműen meghatározott kritériummal, de meglehetősen ésszerű klaszterezést hajtanak végre „konstrukció szerint”. Mindegyik tud adni különböző eredményeket. Ezért a klaszterezés minőségének meghatározásához a témakör szakértője szükséges, aki felmérheti a klaszterek kiválasztásának értelmét.
  • a klaszterek száma általában nem ismert előre, és valamilyen szubjektív kritérium alapján van beállítva. Ez csak a diszkriminációs módszerekre igaz, mivel a klaszterezési módszerekben a klaszterek kiválasztása formalizált közelségi mérőszámokon alapuló megközelítéssel történik.
  • a klaszterezés eredménye jelentősen függ a mérőszámtól, amelynek megválasztása általában szintén szubjektív, és szakértő határozza meg. De érdemes megjegyezni, hogy számos ajánlás létezik a közelítési intézkedések kiválasztására különböző feladatokhoz.

Alkalmazás

A biológiában

A biológiában a klaszterezés számos területen alkalmazható. Például a bioinformatikában kölcsönható gének összetett hálózatainak elemzésére használják, amelyek néha több száz vagy akár több ezer elemből állnak. A klaszteranalízis lehetővé teszi a vizsgált rendszer alhálózatainak, szűk keresztmetszeteinek, hubjainak és egyéb rejtett tulajdonságainak azonosítását, ami végső soron lehetővé teszi az egyes gének hozzájárulásának a vizsgálatát a vizsgált jelenség kialakulásához.

Az ökológia területén széles körben használják térben homogén élőlénycsoportok, közösségek stb. azonosítására. Ritkábban alkalmaznak klaszterelemzési módszereket a közösségek időbeli vizsgálatára. A közösségek szerkezetének heterogenitása a klaszterelemzés nem triviális módszereinek megjelenéséhez vezet (például a Czekanowski-módszer).

Általában érdemes megjegyezni, hogy történetileg a hasonlósági mérőszámokat gyakrabban használják közelségi mérőszámként a biológiában, nem pedig különbség (távolság) mértékként.

A szociológiában

A szociológiai kutatások eredményeinek elemzésekor ajánlatos az elemzést egy hierarchikus agglomeratív család módszereivel, nevezetesen a Ward-módszerrel végezni, amelyben a klasztereken belüli minimális diszperziót optimalizálják, ennek eredményeként megközelítőleg azonos méretű klaszterek jönnek létre. jönnek létre. A szociológiai adatok elemzésére Ward módszere a legsikeresebb. A különbség mértékeként a kvadratikus euklideszi távolság jobb, ami hozzájárul a klaszterek kontrasztjának növekedéséhez. A hierarchikus klaszteranalízis fő eredménye egy dendrogram vagy "jégcsapdiagram". Értelmezése során a kutatók a faktoranalízis eredményeinek értelmezéséhez hasonló problémával – a klaszterek azonosításának egyértelmű kritériumainak hiányával – szembesülnek. Főként két módszer alkalmazása javasolt - a dendrogram vizuális elemzése és a különböző módszerekkel végzett klaszterezés eredményeinek összehasonlítása.

A dendrogram vizuális elemzése magában foglalja a fa "kivágását" a mintaelemek hasonlóságának optimális szintjén. A „szőlőágat” (Oldenderfer M.S. és Blashfield R.K. terminológiája) 5 körül kell „levágni” a Rescaled Distance Cluster Combine skálán, így 80%-os hasonlósági szintet érünk el. Ha nehéz fürtöket kiválasztani ezzel a címkével (több kis klaszter egyesül egy nagyba), akkor választhat másik címkét. Ezt a technikát Oldenderfer és Blashfield javasolta.

Most felmerül az elfogadott klasztermegoldás stabilitásának kérdése. Valójában a klaszterezés stabilitásának ellenőrzése a megbízhatóságának ellenőrzésén múlik. Itt van egy ökölszabály – a stabil tipológia megmarad, ha a klaszterezési módszerek megváltoznak. A hierarchikus klaszteranalízis eredményei iteratív k-közép klaszteranalízissel ellenőrizhetők. Ha a válaszadói csoportok összehasonlított besorolásaiban az egybeesések aránya meghaladja a 70%-ot (az egybeesések több mint 2/3-a), akkor klaszterdöntés születik.

Lehetetlen ellenőrizni a megoldás megfelelőségét más típusú elemzés igénybevétele nélkül. Legalábbis elméletileg ez a probléma nem oldódott meg. Oldenderfer és Blashfield klasszikus klaszterelemzése öt további robusztussági vizsgálati módszert dolgoz ki, és végül elutasít:

A számítástechnikában

  • A keresési eredmények klaszterezése – a találatok „intelligens” csoportosítására szolgál fájlok, webhelyek, egyéb objektumok keresésekor, lehetővé téve a felhasználó számára, hogy gyorsan navigáljon, válasszon ki egy nyilvánvalóan relevánsabb részhalmazt, és kizárjon egy nyilvánvalóan kevésbé releváns részhalmazt – ami növelheti a az interfész használhatósága az egyszerű relevancialista szerinti kimenethez képest.
    • Clusty – a Vivísimo klaszterező keresőmotorja
    • Nigma - orosz keresőmotor automatikus találatcsoportosítással
    • Quintura - vizuális klaszterezés kulcsszófelhő formájában
  • Képszegmentálás képszegmentálás) - A klaszterezés használható a digitális kép különálló régiókra bontására élérzékelés céljából. éldetektáló) vagy tárgyfelismerés.
  • Adatbányászat adatbányászat)- A klaszterezés az adatbányászatban akkor válik értékessé, ha az adatelemzés egyik szakaszaként működik, és egy teljességet épít fel analitikus megoldás. Az elemzőnek gyakran könnyebb azonosítani a hasonló objektumok csoportjait, tanulmányozni a jellemzőit, és minden csoporthoz külön modellt építeni, mint egy általános modellt az összes adathoz. Ezt a technikát folyamatosan alkalmazzák a marketingben, kiemelve vásárlói csoportokat, vásárlókat, árukat, és mindegyikre külön stratégiát dolgoznak ki.

Lásd még

Megjegyzések

Linkek

Oroszul
  • www.MachineLearning.ru – a gépi tanulásnak és adatbányászatnak szentelt professzionális wiki-forrás
Angolul
  • COMPACT – Összehasonlító csomag a klaszterezés értékeléséhez. Egy ingyenes Matlab csomag, 2006.
  • P. Berkhin, Felmérés a klaszterezési adatbányászati ​​technikákról, Accrue Software, 2002.
  • Jain, Murty és Flynn: Adatcsoportosítás: áttekintés, ACM Comp. Surv., 1999.
  • A hierarchikus, k-középek és fuzzy c-középek egy másik bemutatásához lásd ezt a klaszterezés bevezetőjét. A Gauss-féle keveredésről is van magyarázat.
  • David Dowe, Mixture Modeling oldal- egyéb klaszterezési és keverékmodell hivatkozások.
  • oktatóanyag a klaszterezésről
  • Az on-line tankönyv: Information Theory, Inference, and Learning Algorithms, David J.C. A MacKay fejezeteket tartalmaz a k-közép klaszterezésről, a soft k-means klaszterezésről és a levezetésekről, beleértve az E-M algoritmus és az E-M algoritmus variációs nézete.
  • „Az önszerveződő gén”, oktatóanyag, amely a klaszterezést versengő tanuláson és önszerveződő térképeken keresztül magyarázza.
  • kernlab - R csomag kernel alapú gépi tanuláshoz (a spektrális fürtözés megvalósítását tartalmazza)
  • Oktatóanyag – oktatóanyag a klaszterezési algoritmusok (k-középek, fuzzy-c-means, hierarchikus, Gauss-féle keverékek) bemutatásával + néhány interaktív demó (java kisalkalmazások)
  • Adatbányászati ​​szoftver – Az adatbányászati ​​szoftver gyakran használ fürtözési technikákat.
  • Java Competive Learning Application Felügyelet nélküli neurális hálózatok csomagja fürtözéshez. Java nyelven írva. Teljes forráskóddal.
  • Gépi tanulási szoftver – Sok klaszterező szoftvert is tartalmaz.

A statisztikában a klaszterelemzésnek két fő típusa van (mindkettőt képviseli az SPSS): a hierarchikus és a k-átlag. Az első esetben az automatizált statisztikai eljárás önállóan határozza meg a klaszterek optimális számát és számos egyéb, a klaszterezéshez szükséges paramétert.

elemzés. A második típusú elemzésnek jelentős korlátai vannak a gyakorlati alkalmazhatóságban - ehhez önállóan meg kell határozni az allokált klaszterek pontos számát, és az egyes klaszterek központjainak kezdeti értékeit (centroidok), valamint néhány más statisztikai adatot. A k-means módszerrel végzett elemzés során ezeket a problémákat úgy oldják meg, hogy előzetesen hierarchikus klaszterelemzést végeznek, majd ennek eredményei alapján a k-közép módszerrel kiszámítják a klasztermodellt, ami a legtöbb esetben nemhogy nem egyszerűsít, hanem , éppen ellenkezőleg, megnehezíti a kutató (különösen a felkészületlen) munkáját.

Általánosságban elmondható, hogy tekintettel arra, hogy a hierarchikus klaszterelemzés igen nagy igénybevételt jelent a számítógépes hardver erőforrásai számára, az SPSS-be bevezették a k-means klaszteranalízist, amely sok ezer megfigyelésből (válaszadóból) álló, igen nagy adathalmazokat dolgoz fel olyan feltételek mellett. a számítástechnikai eszközök elégtelen kapacitása1. A marketingkutatásban használt mintanagyság a legtöbb esetben nem haladja meg a négyezer válaszadót. A marketingkutatás gyakorlata azt mutatja, hogy a klaszterelemzés első típusa – a hierarchikus – minden esetben javasolt, mint a legrelevánsabb, univerzális és legpontosabb. Ugyanakkor hangsúlyozni kell, hogy a releváns változók kiválasztása fontos a klaszteranalízis során. Ez a megjegyzés nagyon fontos, hiszen több vagy akár egy irreleváns változó bevonása az elemzésbe a teljes statisztikai eljárás kudarcát okozhatja.

A klaszteranalízis elvégzésének módszertanát a marketingkutatás gyakorlatából vett alábbi példa segítségével ismertetjük.

Kiinduló adatok:

A vizsgálat során 745 légiutast kérdeztek meg, akik a 22 orosz és külföldi légitársaság egyikével repültek. A légi utasokat egy ötfokú skálán 1-től (nagyon rossz) 5-ig (kiváló) értékelték a légitársaság földi személyzetének hét szempontját a bejelentkezési folyamat során: udvariasság, professzionalizmus, gyorsaság, segítőkészség, sorkezelés. , megjelenés, munkaszemélyzet általában.

Kívánt:

Szegmentálja a vizsgált légitársaságokat a földi személyzet munkaminőségének a légi utasok által észlelt szintje szerint.

Tehát van egy adatállományunk, amely hét intervallumváltozóból áll, amelyek a különböző légitársaságok földi személyzetének teljesítményértékelését jelölik (ql3-ql9), egyetlen ötfokozatú skálán bemutatva. Az adatállomány egyetlen q4 változót tartalmaz, amely a válaszadók által kiválasztott légitársaságokat jelöli (összesen 22). Végezzünk klaszterelemzést, és határozzuk meg, hogy a légitársasági adatok mely célcsoportokra oszthatók.

A hierarchikus klaszterelemzés két szakaszban történik. Az első szakasz eredménye a klaszterek (célszegmensek) száma, amelyekre a vizsgált válaszadói mintát fel kell osztani. A klaszterelemzési eljárás önmagában nem

önállóan meg tudja határozni a klaszterek optimális számát. Csak a kívánt számot tudja javasolni. Mivel a feladat meghatározni optimális szám szegmensek kulcsfontosságúak, ezt általában az elemzés külön szakaszában oldják meg. A második szakaszban a megfigyelések tényleges klaszterezése történik az elemzés első szakaszában meghatározott klaszterek számának megfelelően. Most nézzük meg sorrendben ezeket a klaszterelemzési lépéseket.

A fürtelemzési eljárás az Elemzés > Osztályozás > Hierarchikus fürt menü segítségével indítható el. A megnyíló párbeszédpanelen az adatfájlban elérhető összes változó bal oldali listájából válassza ki azokat a változókat, amelyek a szegmentálási feltételek. Esetünkben hét van belőlük, és a földi személyzet munkájának paramétereire vonatkozó becsléseket jelölik ql3-ql9 (5.44. ábra). Elvileg a szegmentálási kritériumok megadása elég lesz a klaszterelemzés első szakaszának elvégzéséhez.

Rizs. 5.44.

Az SPSS alapértelmezés szerint a klaszterek kialakulásának eredményeit tartalmazó táblázat mellett, amely alapján meghatározzuk azok optimális számát, egy speciális fordított hisztogram jégcsapot is megjelenít, amely a program készítőinek szándéka szerint , segít meghatározni a klaszterek optimális számát; A diagramok a Plots gombbal jeleníthetők meg (5.45. ábra). Ha azonban meghagyjuk ezt az opciót, akkor még egy viszonylag kis adatfájl feldolgozásával is sok időt töltünk. A Jégcsapon kívül a Plots ablakban egy gyorsabb Dendogram oszlopdiagram is kiválasztható. Ez egy vízszintes sáv, amely a klaszterképződés folyamatát tükrözi. Elméletileg kis számú (akár 50-100) válaszadó esetén ez a diagram valóban segít kiválasztani az optimális megoldást a szükséges klaszterszám tekintetében. A marketingkutatásból származó szinte valamennyi példában azonban a minta mérete meghaladja ezt az értéket. A dendogram teljesen használhatatlanná válik, hiszen viszonylag kis számú megfigyelés mellett is az eredeti adatállomány igen hosszú sorszám-sorozata, amelyet vízszintes és függőleges vonalak kötnek össze. A legtöbb SPSS-tankönyv csak ilyen mesterséges, kis mintákon tartalmaz klaszterelemzési példákat. Ebben az oktatóanyagban bemutatjuk, hogyan hozhatja ki a legtöbbet az SPSS-ből gyakorlati környezetben, és valós piackutatási példákkal.

Rizs. 5.45.

Amint azt megállapítottuk, sem a Icicle, sem a Dendogram nem alkalmas gyakorlati célokra. Ezért a Hierarchikus fürtelemzés fő párbeszédpanelében azt javasoljuk, hogy ne jelenítse meg a diagramokat az alapértelmezett Plots opció kijelölésének megszüntetésével a Megjelenítés területen, amint az az ábrán látható. 5.44. Most már minden készen áll a klaszterelemzés első szakaszának végrehajtására. Indítsa el az eljárást az OK gombra kattintva.

Egy idő után az eredmények megjelennek az SPSS Viewer ablakában. Ahogy fentebb említettük, az elemzés első szakaszának egyetlen számunkra jelentős eredménye az Átlagos kapcsolódás (csoportok között) táblázat lesz, amelyet az ábra mutat be. 5.46. A táblázat alapján meg kell határoznunk a klaszterek optimális számát. Meg kell jegyezni, hogy nincs egyetlen univerzális módszer a klaszterek optimális számának meghatározására. Ezt a számot a kutatónak minden esetben magának kell meghatároznia.

A tapasztalatok alapján a szerző ennek a folyamatnak a következő sémáját javasolja. Először is próbáljuk meg a klaszterek számának meghatározására a legelterjedtebb standard módszert alkalmazni. Az Átlagos kapcsolódás (Csoportok között) táblázat segítségével meg kell határozni, hogy a klaszterképzési folyamat mely lépésében (oszlop Stage) következik be az agglomerációs együttható első viszonylag nagy ugrása (együtthatók oszlop). Ez az ugrás azt jelenti, hogy előtte az egymástól kellően kis távolságra lévő megfigyelések klaszterekbe kerültek (esetünkben az elemzett paraméterek tekintetében hasonló értékelési szinttel rendelkező válaszadók), és ettől kezdve a távolabbi megfigyelések. kombinálódnak.

Esetünkben az együtthatók simán nőnek 0-ról 7,452-re, vagyis az 1-től 728-ig tartó együtthatók közötti különbség kicsi volt (például 728 és 727 lépés között - 0,534). A 729. lépéstől kezdve megtörténik az együttható első jelentős ugrása: 7,452-ről 10,364-re (2,912-vel). Az a lépés, amelynél az együttható először ugrik, 729. Most a klaszterek optimális számának meghatározásához ki kell vonni a kapott értéket a megfigyelések teljes számából (mintanagyság). A teljes mintanagyság esetünkben 745 fő; ezért a klaszterek optimális száma 745-729 = 16.


Rizs. 5.46.

Elég nagy számú klasztert kaptunk, amit a jövőben nehéz lesz értelmezni. Ezért most meg kell vizsgálni a kapott klasztereket, és meg kell határozni, hogy melyikük szignifikáns, és melyeket kell megpróbálni csökkenteni. Ezt a problémát a klaszteranalízis második szakaszában oldjuk meg.

Nyissa meg a fürtelemzési eljárás fő párbeszédpanelét (menü Elemzés > Osztályozás > Hierarchikus fürt). Az elemzett változók mezőjében már hét paraméterünk van. Kattintson a Mentés gombra. A megnyíló párbeszédpanel (5.47. ábra) lehetővé teszi egy új változó létrehozását a forrásadatfájlban, amely a válaszadókat célcsoportokba osztja. Válassza az Egyetlen megoldás opciót, és a megfelelő mezőben adja meg a szükséges számú klasztert - 16 (a klaszterelemzés első szakaszában meghatározva). A Folytatás gombra kattintva visszatérhet a fő párbeszédpanelhez, ahol az OK gombra kattintva elindíthatja a klaszterelemzési eljárást.

A klaszterelemzési folyamat ismertetésének folytatása előtt szükséges bemutatni Rövid leírás egyéb opciók. Ezek között vannak hasznos tulajdonságok és valójában feleslegesek is (a gyakorlati marketingkutatás szempontjából). Például a fő Hierarchikus fürtelemzés párbeszédpanel tartalmaz egy Címkeesetek mezőt, amelyben opcionálisan elhelyezhet egy szöveges változót, amely azonosítja a válaszadókat. Esetünkben erre szolgálhat a q4 változó, amely a válaszadók által választott légitársaságokat kódolja. A gyakorlatban nehéz racionális magyarázatot találni a Label Case mezők szerinti használatára, így nyugodtan mindig üresen hagyhatja.

Rizs. 5.47.

A klaszteranalízis során ritkán a Statisztika párbeszédpanel kerül felhasználásra, amelyet a fő párbeszédpanel azonos nevű gombja hív meg. Lehetővé teszi a Cluster Membership tábla megjelenítését az SPSS Viewer ablakban, amelyben a forrásadatfájlban minden válaszadó egy fürtszámhoz van hozzárendelve. Megfelelően nagy számú válaszadó esetén (szinte minden marketingkutatási példában) ez a táblázat teljesen használhatatlanná válik, mivel ez egy hosszú „válaszadószám / klaszterszám” értékpárok sorozata, amely ebben a formában nem értelmezhető. . A klaszterelemzés technikai célja minden esetben egy olyan további változó létrehozása az adatállományban, amely tükrözi a válaszadók célcsoportokra való felosztását (a klaszterelemzés fő párbeszédablakban a Mentés gombra kattintva). Ez a változó a válaszadók számával együtt a Klasztertagság tábla. Az egyetlen praktikus lehetőség a Statisztika ablakban az Átlagos kapcsolat (csoportok között) tábla megjelenítése, de ez már alapértelmezés szerint be van állítva. Így a Statisztika gomb használata és egy külön fürttagsági tábla megjelenítése az SPSS Viewer ablakban nem praktikus.

A Plots gombot már fentebb említettük: a fő klaszterelemzés párbeszédpanelen a Plots paraméter kijelölésének törlésével kell deaktiválni.

A fürtelemzési eljárás e ritkán használt funkciói mellett az SPSS néhány nagyon hasznos lehetőséget is kínál. Közülük mindenekelőtt a Mentés gomb, amellyel a forrásadatfájlban új változót hozhatunk létre, amely klaszterekbe osztja a válaszadókat. A fő párbeszédablakban is van egy terület a klaszterezés tárgyának kiválasztásához: válaszadók vagy változók. Ezt a lehetőséget fentebb az 5.4. pontban tárgyaltuk. Az első esetben a klaszterelemzést főként a válaszadók bizonyos kritériumok szerinti szegmentálására használják; a másodikban a klaszteranalízis célja hasonló a faktoranalízishez: a változók osztályozása (számának csökkentése).

ábrából látható. 5.44, a klaszteranalízis egyetlen figyelmen kívül hagyott lehetősége a statisztikai eljárás lefolytatásának módját kiválasztó gomb Módszer. Ezzel a paraméterrel kísérletezve nagyobb pontosságot érhet el a klaszterek optimális számának meghatározásában. Általános formaábrán látható ez a párbeszédpanel az alapértelmezett beállításokkal. 5.48.

Rizs. 5.48.

Az első dolog, ami ebben az ablakban van beállítva, a klaszterek kialakításának (vagyis a megfigyelések kombinálásának) módja. Az SPSS által kínált statisztikai módszerek összes lehetséges lehetősége közül válassza az alapértelmezett Between-groups linkage módszert vagy a Ward (Ward "s method) módszert. Az első módszert gyakrabban használják sokoldalúsága és viszonylagos egyszerűsége miatt. Az alapjául szolgáló statisztikai eljárás. Ezzel a módszerrel a klaszterek közötti távolságot az összes lehetséges megfigyelési pár távolságának átlagaként számítjuk ki, minden iteráció során az egyik megfigyelést az egyik klaszterből, a másikat pedig a másikból. megfigyelések. A Ward-módszer nehezebben érthető és ritkábban használatos. Több szakaszból áll, és azon alapul, hogy minden megfigyelésnél átlagolják az összes változó értékét, majd összegzik a kiszámított átlagok és az egyes megfigyelések közötti távolság négyzetét. gyakorlati célok, marketing Az új kutatásokhoz azt javasoljuk, hogy mindig használja az alapértelmezett Between-groups linkelési módszert.

A statisztikai klaszterezési eljárás kiválasztása után válasszon egy módszert a megfigyelések közötti távolságok kiszámításához (A Terület mérése a Módszer párbeszédpanelen). Létezik különféle módszerek távolságok meghatározása a klaszteranalízisben részt vevő három változótípushoz (szegmentációs kritériumok). Ezeknek a változóknak lehet intervallum (Interval), nominális (Counts) vagy dichotóm (bináris) skála. A dichotóm skála (bináris) csak azokat a változókat foglalja magában, amelyek egy esemény bekövetkezését/nem bekövetkezését tükrözik (megvásárolt / nem vásárolt, igen / nem stb.). Más típusú dichotóm változókat (például férfi/nő) névlegesként (Counts) kell figyelembe venni és elemezni.

Az intervallumváltozók távolságának meghatározására leggyakrabban használt módszer az alapértelmezett négyzetes euklideszi távolság. Ez a módszer bizonyult a marketingkutatásban a legpontosabbnak és leguniverzálisabbnak. Azonban dichotóm változók esetén, ahol a megfigyeléseket csak két érték képviseli (például 0 és 1), ez a módszer nem megfelelő. A lényeg az, hogy csak a következő típusú megfigyelések közötti interakciókat veszi figyelembe: X = 1,Y = 0 és X = 0, Y=l (ahol X és Y változók), más típusú interakciókat pedig nem. A távolság legátfogóbb mértéke, amely figyelembe veszi a két dichotóm változó közötti kölcsönhatások összes fontos típusát, a Lambda-módszer. Sokoldalúsága miatt javasoljuk ennek a módszernek a használatát. Vannak azonban más módszerek is, például a Shape, a Hamann vagy az Anderbergs-féle D.

A dichotóm változók távolságának meghatározására szolgáló módszer megadásakor a megfelelő mezőben meg kell adni azokat a konkrét értékeket, amelyeket a vizsgált dichotóm változók vehetnek: a Jelen mezőben - a válasz kódolása Igen, a Hiányzó mezőben - Nem. . A jelenlévő és hiányzó mezők neve azzal a ténnyel jár, hogy a Bináris metóduscsoportban csak olyan dichotóm változókat kell használni, amelyek egy esemény bekövetkeztét/nem bekövetkezését tükrözik. Az Intervallum és Binary változók két típusa esetén többféle módszer létezik a távolság meghatározására. A névleges skálatípusú változókhoz az SPSS csak két módszert kínál: (Khi-négyzet mértéke) és (Phi-négyzet mértéke). Javasoljuk, hogy az első módszert használja, mint a leggyakoribb.

A Módszer párbeszédpanelnek van egy Értékek átalakítása területe, amely szabványosítási mezőt tartalmaz. Ez a mező akkor használatos, ha különböző skálatípusú változók (például intervallum és névleges) vesznek részt a klaszteranalízisben. Ahhoz, hogy ezeket a változókat klaszteranalízisben használhassuk, szabványosítást kell végrehajtani, amely egyetlen skálatípushoz vezeti őket. A változók szabványosításának legelterjedtebb módja a 2-standardizálás (Zscores): minden változó egyetlen értéktartományra redukálódik -3 és +3 között, és a transzformáció után intervallum.

Mivel alapértelmezés szerint minden optimális módszer (klaszterezés és távolságmeghatározás) be van állítva, a Method párbeszédablakot csak az elemzendő változók típusának megadására, illetve a változók 2-es szabványosításának szükségességének jelzésére célszerű használni.

Tehát leírtuk az SPSS által a klaszteranalízishez biztosított összes főbb funkciót. Térjünk vissza a légitársaságok szegmentálása céljából végzett klaszteranalízis leírásához. Emlékezzünk vissza, hogy megállapodtunk egy tizenhat klaszteres megoldás mellett, és létrehoztunk egy új clul6_l változót a forrásadatfájlban, amely az összes elemzett légitársaságot klaszterekbe osztja.

Annak megállapításához, hogy mennyire helyesen határoztuk meg a klaszterek optimális számát, felállítjuk a clul6_l változó lineáris eloszlását (menü Elemzés > Leíró statisztikák > Gyakoriságok). ábrán látható. 5,49, az 5-16-os klaszterekben a válaszadók száma 1-től 7-ig terjed. A klaszterek optimális számának meghatározására fentebb leírt univerzális módszer mellett (a válaszadók összlétszáma és az első ugrás közötti különbség alapján) agglomerációs együttható), van egy további ajánlás is: a klaszterek méretének statisztikailag értelmesnek és praktikusnak kell lennie. Mintaméretünkkel egy ilyen kritikus érték legalább 10-es szinten állítható be. Látjuk, hogy csak az 1-4 számú klaszterek esnek e feltétel alá. Ezért most újra kell számolni a klaszterelemzési eljárást egy négyklaszteres megoldás kimenetével (új du4_l változó jön létre).


Rizs. 5.49.

Ha az újonnan létrehozott du4_l változóra lineáris eloszlást építettünk, látni fogjuk, hogy csak két klaszterben (1 és 2) gyakorlatilag szignifikáns a válaszadók száma. Újra kell építenünk a fürtmodellt – most egy kétfürtös megoldáshoz. Ezt követően megszerkesztjük a du2_l változóra vonatkozó eloszlást (5.50. ábra). Amint a táblázatból látható, a két klaszteres megoldásban statisztikailag és gyakorlatilag is szignifikáns számú válaszadó van mind a két kialakult klaszterben: az 1. klaszterben 695 válaszadó; Így meghatároztuk a feladatunkhoz optimális klaszterszámot, és hét kiválasztott szempont szerint elvégeztük a válaszadók tényleges szegmentálását. Most már teljesítettnek tekinthetjük feladatunk fő célját, és továbbléphetünk a klaszterelemzés utolsó szakaszába - a kapott célcsoportok (szegmensek) értelmezéséhez.


Rizs. 5.50.

Az eredményül kapott megoldás némileg eltér azoktól, amelyeket esetleg látott oktatási segédletek az SPSS által. Még a leggyakorlatiasabb tankönyvek is kínálnak mesterséges példákat arra, hogy a klaszterezés ideális válaszadói célcsoportokat eredményez. Egyes esetekben (5) a szerzők egyenesen rámutatnak a példák mesterséges eredetére. Ebben az oktatóanyagban a gyakorlati marketingkutatásból vett életből vett, ideális arányokkal nem jellemezhető példát használunk a klaszteranalízis működésének szemléltetésére. Ez lehetővé teszi számunkra, hogy bemutassuk a klaszteranalízis végrehajtásának leggyakoribb nehézségeit, valamint a legjobb módszereket ezek kiküszöbölésére.

Mielőtt folytatnánk a kapott klaszterek értelmezését, foglaljuk össze. A klaszterek optimális számának meghatározásához a következő sémát használjuk.

¦ Az 1. lépésben az agglomerációs együttható alapján matematikai módszerrel meghatározzuk a klaszterek számát.

¦ A 2. szakaszban a válaszadókat a kapott klaszterszám szerint klaszterezzük, majd a kapott új változó (clul6_l) alapján lineáris eloszlást készítünk. Itt azt is meg kell határozni, hogy hány klaszterből áll statisztikailag szignifikáns számú válaszadó. Általában a klaszterek minimális szignifikáns számát legalább 10 válaszadó szintjén javasolt beállítani.

¦ Ha minden klaszter megfelel ennek a kritériumnak, akkor továbblépünk a klaszterelemzés utolsó szakaszához: a klaszterek értelmezéséhez. Ha vannak olyan klaszterek, amelyeknek elenyésző számú alkotó megfigyelése van, akkor meghatározzuk, hogy hány klaszterből áll jelentős számú válaszadó.

¦ A klaszterelemzési eljárást újraszámítjuk úgy, hogy a Mentés párbeszédpanelen megadjuk a jelentős számú megfigyelést tartalmazó klaszterek számát.

¦ Lineáris eloszlást építünk egy új változóra.

Ezt a műveletsort addig ismételjük, amíg olyan megoldást nem találunk, amelyben az összes klaszter statisztikailag szignifikáns számú válaszadóból áll majd. Ezt követően folytathatja a klaszterelemzés utolsó szakaszát - a klaszterek értelmezését.

Külön meg kell jegyezni, hogy a klaszterek számának gyakorlati és statisztikai szignifikancia kritériuma nem az egyetlen kritérium, amely alapján a klaszterek optimális száma meghatározható. A kutató önállóan, tapasztalatai alapján javaslatot tehet a klaszterek számára (a szignifikancia feltételnek teljesülnie kell). Egy másik lehetőség egy meglehetősen gyakori helyzet, amikor a vizsgálat céljaira előzetesen feltételt szabnak a válaszadók adott számú célcsoport szerinti szegmentálására. Ebben az esetben csak egyszer kell elvégezni egy hierarchikus klaszterelemzést, megtartva a szükséges számú klasztert, majd meg kell próbálni értelmezni, mi történik.

Az eredményül kapott célszegmensek leírásához a vizsgált változók (klaszter-centroidok) átlagértékeinek összehasonlító eljárását kell alkalmazni. Összehasonlítjuk a hét figyelembe vett szegmentációs kritérium átlagértékeit a két kapott klaszterben.

Az átlagok összehasonlításának eljárása az Elemzés > Átlagok összehasonlítása > Átlagok menü használatával hívható meg. A megnyíló párbeszédpanelen (5.51. ábra) válassza ki a bal oldali listából a szegmentálási feltételként kiválasztott hét változót (ql3-ql9), és vigye át a függő változók Függő lista mezőjébe. Ezután mozgassa a сШ2_1 változót, amely a válaszadók klaszterekre való felosztását tükrözi a probléma végső (két klaszteres) megoldásában, a bal oldali listából a független változók Independent List mezőjébe. Ezután kattintson a Beállítások gombra.

Rizs. 5.51.

Megnyílik az Opciók párbeszédpanel, amelyben válassza ki a szükséges statisztikákat a klaszterek összehasonlításához (5.52. ábra). Ehhez a Cell Statisztika mezőben csak az Átlag értékek kimenetét hagyja meg, az egyéb alapértelmezett statisztikákat eltávolítva belőle. Zárja be a Beállítások párbeszédpanelt a Folytatás gombra kattintva. Végül a fő Means párbeszédpanelen indítsa el az átlag összehasonlítási eljárást (OK gomb).

Rizs. 5.52.

A megnyíló SPSS Viewer ablakban megjelennek az átlagok összehasonlítására szolgáló statisztikai eljárás eredményei. Érdekel bennünket a Jelentés táblázat (5.53. ábra). Ebből látható, hogy az SPSS milyen alapon osztotta két klaszterre a válaszadókat. Esetünkben ilyen kritérium az elemzett paraméterek értékelési szintje. Az 1. klaszter azokból a válaszadókból áll, akiknél az összes szegmentációs kritérium átlagos pontszáma viszonylag magas (4,40 pont és afeletti). A 2. klaszterbe azok a válaszadók tartoznak, akik a figyelembe vett szegmentálási kritériumokat meglehetősen alacsonyra (3,35 pont alatt) értékelték. Megállapíthatjuk tehát, hogy az 1. klasztert alkotó válaszadók 93,3%-a összességében jónak értékelte az elemzett légitársaságokat; 5,4% meglehetősen alacsony; 1,3% talált nehezen válaszolt (lásd 5.50. ábra). ábrából 5,53, akkor arra is következtethetünk, hogy a külön-külön vizsgált paraméterek mindegyikére melyik minősítési szint magas és melyik alacsony (és ezt a következtetést fogják levonni a válaszadók, ami lehetővé teszi a magas besorolási pontosság elérését). A Jelentés táblázatból látható, hogy a Queue Throttling változónál a 4,40-es átlagos pontszám magasnak számít, a paraméternél pedig Kinézet -- 4.72.


Rizs. 5.53.

Kiderülhet, hogy hasonló esetben az X paraméternél a 4.5 számít magas pontszámnak, az Y paraméternél pedig csak a 3.9. Ez nem klaszterezési hiba, hanem éppen ellenkezőleg, lehetővé teszi, hogy fontos következtetést vonjunk le a vizsgált paraméterek jelentőségét illetően a válaszadók számára. Így az Y paraméternél már a 3,9 pont jó becslés, míg az X paraméternél szigorúbb követelményeket támasztanak a válaszadók.

Két olyan szignifikáns klasztert azonosítottunk, amelyek a szegmentációs kritériumok szerint különböznek az átlagos pontszámok szintjében. Mostantól címkéket rendelhet a kapott klaszterekhez: 1-hez - Légitársaságok, amelyek megfelelnek a válaszadók követelményeinek (a hét elemzett kritérium szerint); 2-re -- Légitársaságok, amelyek nem felelnek meg a válaszadók követelményeinek. Most láthatja, hogy mely légitársaságok (a q4 változóban kódolva) felelnek meg a válaszadók követelményeinek, és melyek nem a szegmentálási kritériumok szerint. Ehhez létre kell hoznia a q4 változó kereszteloszlását (elemzett légitársaságok) a clu2_l klaszterezési változó függvényében. Egy ilyen keresztmetszeti elemzés eredményeit az 1-1. 5.54.

A táblázat alapján a következő következtetések vonhatók le a vizsgált légitársaságok tagságára vonatkozóan a kiválasztott célszegmensekben.


Rizs. 5.54.

1. Légitársaságok, amelyek teljes mértékben megfelelnek minden ügyfél követelményeinek a földi személyzet munkáját illetően (csak egy első klaszterben szerepelnek):

¦ Vnukovo Airlines;

¦ American Airlines;

¦ Delta Airlines;

Austrian Airlines;

¦ British Airways;

¦ Korean Airlines;

Japan Airlines.

2. Azok a légitársaságok, amelyek a legtöbb ügyfeleik igényeit kielégítik a földi személyzet munkáját illetően (az ezekkel a légitársaságokkal repülő válaszadók többsége elégedett a földi személyzet munkájával):

¦ Transaero.

3. Azok a légitársaságok, amelyek a földi személyzet munkáját illetően nem felelnek meg ügyfeleik többségének követelményeinek (az ezekkel a légitársaságokkal repülő válaszadók többsége nem elégedett a földi személyzet munkájával):

¦ Domodedovo Airlines;

¦ Pulkovo;

¦ Szibéria;

¦ Ural Airlines;

¦ Samara Airlines;

Így a légitársaságok három célszegmensét kaptuk meg az átlagos értékelések szintjével, amelyeket a válaszadók különböző fokú elégedettsége jellemez a földi személyzet munkájával:

  • 1. az utasok számára legvonzóbb légitársaságok a földi személyzet munkáját tekintve (14);
  • 2. meglehetősen vonzó légitársaságok (1);
  • 3. meglehetősen nem vonzó légitársaságok (7).

Sikeresen teljesítettük a klaszterelemzés minden szakaszát, és hét kiválasztott kritérium szerint szegmentáltuk a légitársaságokat.

Most a faktoranalízissel párosított klaszteranalízis módszertanát ismertetjük. A probléma feltételét az 5.2.1. szakaszból (faktoriális elemzés) használjuk. Mint már említettük, a nagyszámú változós szegmentációs problémáknál a klaszteranalízist célszerű faktoranalízissel megelőzni. Ez azért történik, hogy a szegmentálási kritériumok számát a legjelentősebbekre csökkentsük. Esetünkben 24 változó van az eredeti adatfájlban. A faktoranalízis eredményeként számukat sikerült 5-re csökkenteni. Most már ez a faktorszám hatékonyan felhasználható a klaszteranalízishez, és maguk a faktorok szegmentálási kritériumként is használhatók.

Ha azzal a feladattal állunk szemben, hogy a válaszadókat az X légitársaság jelenlegi versenyhelyzetének különböző szempontjairól alkotott értékelésük alapján szegmentáljuk, hierarchikus klaszteranalízist végezhetünk az azonosított öt kritérium (nfacl_l-nfac5_l változók) szerint. Esetünkben a változókat különböző skálákon értékeltük. Például egy 1-es pontszám a Nem szeretném, ha a légitársaság változtatna kijelentésre, és ugyanaz a pontszám a Változások a légitársaságban állításra pozitív pillanat, jelentésében homlokegyenest ellentétes. Az első esetben az 1 pont (egyáltalán nem értek egyet) azt jelenti, hogy a válaszadó üdvözli a légitársaság változásait; a második esetben az 1-es pontszám azt jelzi, hogy a válaszadó elutasítja a légitársaság változásait. A klaszterek értelmezése során elkerülhetetlenül nehézségekbe ütközünk, mivel az ellentétes jelentésű változók

ugyanabba a tényezőbe esnek. Így a szegmentáláshoz először a vizsgált változók skáláit célszerű összhangba hozni, majd a faktoriális modellt újraszámolni. És már a továbbiakban klaszteranalízist végezni a faktoranalízis eredményeként kapott változókon-tényezőkön. A faktor- és klaszteranalízis eljárásait ismételten nem írjuk le részletesen (ezt fent, a vonatkozó részekben megtettük). Csak annyit jegyzünk meg, hogy ezzel a technikával a légi utasok három célcsoportját kaptuk, amelyek a kiválasztott tényezők (vagyis változócsoportok) értékelési szintjében különböznek egymástól: a legalacsonyabb, az átlagos és a legmagasabb.

Nagyon hasznos alkalmazás A klaszteranalízis a gyakorisági táblázatok csoportjaira bontása. Tegyük fel, hogy a válaszok lineárisan eloszlanak arra a kérdésre, hogy milyen márkájú víruskeresők vannak telepítve az Ön szervezetében?. Ahhoz, hogy következtetéseket lehessen levonni erről a disztribúcióról, a víruskereső márkákat több csoportra kell osztani (általában 2-3). Az összes márka három csoportba sorolásához (legnépszerűbb márkák, átlagos népszerűség és népszerűtlen márkák) célszerű a klaszteranalízist alkalmazni, bár a gyakorisági táblázatok elemeit a kutatók általában szemenként választják el, szubjektív megfontolások alapján. Ezzel a megközelítéssel ellentétben a klaszteranalízis lehetővé teszi az elvégzett csoportosítás tudományos alátámasztását. Ehhez adja meg az egyes paraméterek értékeit az SPSS-ben (célszerű ezeket az értékeket százalékban kifejezni), majd végezzen klaszteranalízist ezeken az adatokon. A szükséges számú csoportra (esetünkben 3) a klasztermegoldást új változóként elmentve statisztikailag érvényes csoportosítást kapunk.

A fejezet utolsó részét a klaszteranalízis változók osztályozására való alkalmazásának ismertetésére és annak eredményeinek az 5.2.1. pontban végzett faktoranalízis eredményeivel való összehasonlítására fordítjuk. Ehhez ismét az X légitársaság légiközlekedési piacon elfoglalt helyzetének felmérésére vonatkozó probléma feltételét használjuk. A klaszteranalízis elvégzésének módszertana szinte teljesen megismétli a fentebb leírtakat (amikor a válaszadókat szegmentálták).

Tehát az eredeti adatfájlban 24 változó található, amelyek leírják a válaszadók hozzáállását az X légitársaság jelenlegi versenyhelyzetének különböző aspektusaihoz. Nyissa meg a fő Hierarchikus klaszterelemzés párbeszédpanelt, és helyezzen el 24 változót (ql-q24) a Változóban. (s) mező, ábra. 5.55. A Fürt területen jelezze, hogy változókat osztályoz (jelölje be a Változók opciót). Látni fogja, hogy a Mentés gomb elérhetetlenné vált – a faktorelemzéssel ellentétben a klaszterelemzés nem tudja elmenteni az összes válaszadó faktorértékelését. Tiltsa le a nyomtatást a Plots opció kikapcsolásával. Az első lépésben nincs szüksége más lehetőségre, ezért csak kattintson az OK gombra a fürtelemzési eljárás elindításához.

Az SPSS Viewer ablakában megjelent az Agglomeration Schedule táblázat, mely szerint a fent leírt módszerrel meghatároztuk a klaszterek optimális számát (5.56. ábra). Az agglomerációs együttható első ugrása a 20. lépésben figyelhető meg (18834.000-ről 21980.967-re). Az elemzett változók 24-nek megfelelő teljes száma alapján kiszámítható a klaszterek optimális száma: 24 - 20 = 4.

Rizs. 5.55.


Rizs. 5.56.

A változók osztályozása során gyakorlatilag és statisztikailag szignifikáns a csak egy változóból álló klaszter. Ezért, mivel a matematikai módszerrel elfogadható számú klasztert kaptunk, nincs szükség további ellenőrzésekre. Ehelyett nyissa meg újra a fő klaszterelemzés párbeszédpanelt (az előző lépésben használt összes adat megmarad), és kattintson a Statisztika gombra az osztályozási táblázat megjelenítéséhez. Ekkor megjelenik egy azonos nevű párbeszédpanel, ahol meg kell adni a klaszterek számát, amelyekre 24 változót kell felosztani (5.57. ábra). Ehhez válassza az Egy megoldás opciót, és a megfelelő mezőben adja meg a szükséges számú klasztert: 4. Most zárja be a Statisztika párbeszédpanelt a Folytatás gombra kattintva, és futtassa az eljárást a fő klaszterelemzési ablakból.

Ennek eredményeként az SPSS Viewer ablakban megjelenik a Cluster Membership tábla, amely az elemzett változókat négy klaszterbe osztja (5.58. ábra).

Rizs. 5.58.

E táblázat szerint minden egyes figyelembe vett változó egy adott klaszterhez rendelhető az alábbiak szerint.

1. klaszter

ql. Az X légitársaság kiváló utasszolgáltatásról híres.

q2. Az X Airline felveheti a versenyt a világ legjobb légitársaságaival.

q3. Úgy gondolom, hogy az Airline X-nek ígéretes jövője van a globális repülésben.

q5. Büszke vagyok arra, hogy az Airline X-nél dolgozhatok.

q9. Hosszú utat kell megtennünk ahhoz, hogy világszínvonalú légitársaságnak valljuk magunkat.

qlO. Az X légitársaság valóban törődik az utasokkal.

ql3. Imádom, ahogy az Airline X vizuálisan bemutatja magát a nagyközönségnek (színek és márkajelzések tekintetében).

ql4. Az X légitársaság Oroszország arca.

ql6. Az Airline X szolgáltatása végig egységes és felismerhető

ql8. Az X légitársaságnak változnia kell ahhoz, hogy teljes potenciálját kiaknázza.

ql9. Szerintem az Airline X-nek vizuálisan modernebb módon kell bemutatnia magát.

q20. Az X légitársaság változásai pozitívak lesznek. q21. Az Airline X egy hatékony légitársaság.

q22. Szeretném, ha javulna az X légitársaság imázsa a külföldi utasok tekintetében.

q23. Az X Airline jobb, mint azt a legtöbben gondolják.

q24. Fontos, hogy az emberek szerte a világon tudják, hogy orosz légitársaság vagyunk.

2. klaszter

q4. Tudom, mi lesz az Airline X jövőbeli stratégiája.

q6. Az X légitársaság jó kommunikációt folytat az osztályok között.

q7. A légitársaság minden alkalmazottja mindent megtesz a siker érdekében.

q8. Most az Airline X gyorsan fejlődik.

qll. A légitársaságok alkalmazottai között magas a munkával való elégedettség.

ql2. Hiszem, hogy a felsővezetők mindent megtesznek egy légitársaság sikeréért.

3. klaszter

ql5. Más légitársaságokhoz képest „tegnap”-nak nézünk ki.

4. klaszter

ql7. Nem szeretném, ha az X légitársaság megváltozna.

Ha összehasonlítja a faktoriális (5.2.1. szakasz) és a klaszteranalízis eredményeit, látni fogja, hogy ezek jelentősen eltérnek. A klaszterelemzés nemcsak lényegesen kevesebb lehetőséget biztosít a változók klaszterezésére (például a csoportértékelések mentésének képtelensége) a faktoranalízishez képest, hanem sokkal kevesebb vizuális eredményt is produkál. Esetünkben, ha a 2., 3. és 4. klaszter még mindig logikai értelmezésre alkalmas1, akkor az 1. klaszter teljesen eltérő jelentésű állításokat tartalmaz. Ebben a helyzetben vagy megpróbálhatja leírni az 1. fürtöt úgy, ahogy van, vagy újjáépíteni a statisztikai modellt eltérő számú fürttel. Utóbbi esetben a logikailag leírható klaszterek optimális számának megtalálásához használhatja a Statisztika párbeszédpanel Megoldások tartománya paraméterét (lásd 5.57. ábra), a megfelelő mezőkben megadva a klaszterek minimális és maximális számát ( esetünkben 4, illetve 6). Ilyen helyzetben az SPSS minden egyes számú fürthez újraépíti a fürttagsági táblát. Az elemző feladata ebben az esetben olyan osztályozási modell kiválasztása, amelyben minden klaszter egyértelműen értelmezhető. A klaszterelemzési eljárás változók klaszterezési lehetőségeinek bemutatása érdekében nem építjük újra a klasztermodellt, hanem a fentebb elmondottakra szorítkozunk.

Megjegyzendő, hogy a klaszteranalízisnek a faktoranalízishez viszonyított látszólagos egyszerűsége ellenére a marketingkutatás szinte minden esetben gyorsabb és hatékonyabb a faktoranalízis, mint a klaszteranalízis. Ezért a változók osztályozásához (redukciójához) nyomatékosan javasoljuk a faktoranalízis alkalmazását, a klaszteranalízis alkalmazását pedig hagyjuk meg a válaszadók osztályozásánál.

Az osztályozási elemzés egy felkészületlen felhasználó szemszögéből talán az egyik legösszetettebb statisztikai eszköz. Ez annak köszönhető, hogy nagyon alacsony elterjedtsége a marketing cégeknél. Ez a csoport azonban statisztikai módszerek a marketingkutatás területén dolgozó szakemberek számára is az egyik leghasznosabb.

A klaszteranalízis az

Jó nap. Itt tisztelem azokat az embereket, akik rajonganak a munkájukért.

Maxim, barátom, ebbe a kategóriába tartozik. Folyamatosan dolgozik a számokkal, elemzi azokat, releváns jelentéseket készít.

Tegnap együtt ebédeltünk, így közel fél órán keresztül mesélt a klaszteranalízisről - mi az, és milyen esetekben indokolt és célravezető az alkalmazása. Nos, mi van velem?

Jó a memóriám, így mellesleg mindazokat az adatokat közlöm veletek, amelyekről eredeti és leginformatívabb formájában már tudtam.

A klaszterelemzés célja, hogy egy objektumkészletet homogén csoportokra (klaszterekre vagy osztályokra) ossza fel. Ez a többváltozós adatosztályozás feladata.

Körülbelül 100 különböző klaszterezési algoritmus létezik, azonban a leggyakrabban használt a hierarchikus klaszteranalízis és a k-közép klaszterezés.

Hol alkalmazzák a klaszteranalízist? A marketingben ez a versenytársak és a fogyasztók szegmentálása.

A menedzsmentben: a személyi állomány felosztása különböző motivációs szintű csoportokra, a beszállítók osztályozása, a hasonló termelési helyzetek azonosítása, amelyben házasság jön létre.

Az orvostudományban a tünetek, betegek, gyógyszerek osztályozása. A szociológiában a válaszadók homogén csoportokra való felosztása. Valójában a klaszterelemzés az emberi élet minden területén bevált.

Ennek a módszernek az a szépsége, hogy akkor is működik, ha kevés az adat, és nem teljesülnek a valószínűségi változók eloszlásának normalitása és a klasszikus statisztikai elemzési módszerek egyéb követelményei.

Magyarázzuk meg a klaszteranalízis lényegét anélkül, hogy szigorú terminológiához folyamodnánk:
Tegyük fel, hogy felmérést végzett az alkalmazottak körében, és szeretné meghatározni, hogyan tudja a leghatékonyabban irányítani a személyzetét.

Vagyis az alkalmazottakat csoportokra szeretné osztani, és mindegyikhez kiválasztani a leghatékonyabb vezérlőkarokat. Ugyanakkor a csoportok közötti különbségeknek szembetűnőnek kell lenniük, a csoporton belül pedig a válaszadók minél hasonlóbbak legyenek.

A probléma megoldására hierarchikus klaszterelemzést javasolunk.

Ennek eredményeként egy fát kapunk, amelyre nézve el kell döntenünk, hogy hány osztályra (klaszterre) szeretnénk felosztani a személyzetet.

Tegyük fel, hogy úgy döntünk, hogy három csoportra osztjuk a személyzetet, majd az egyes klaszterekbe került válaszadók tanulmányozására a következő tartalmú tabletet kapunk:


Nézzük meg, hogyan készül a fenti táblázat. Az első oszlop a fürt számát tartalmazza – azt a csoportot, amelynek adatai megjelennek a sorban.

Például az első klaszter 80%-a férfi. Az első klaszter 90%-a a 30-50 éves korosztályba tartozik, és a válaszadók 12%-a gondolja úgy, hogy a juttatások nagyon fontosak. Stb.

Próbáljunk meg portrékat készíteni az egyes klaszterek válaszadóiról:

  1. Az első csoportot többnyire férfiak alkotják. Közép kor vezető pozíciókat tölt be. A szociális csomag (MED, LGOTI, IDŐ-mentes idő) nem érdekli őket. Inkább jó fizetést kapnak, mintsem segítséget a munkáltatótól.
  2. A második csoport ezzel szemben a szociális csomagot részesíti előnyben. Főleg "idős" emberekből áll, akik alacsony pozíciókat töltenek be. A fizetés minden bizonnyal fontos számukra, de vannak más prioritások is.
  3. A harmadik csoport a „legfiatalabb”. Az előző kettővel ellentétben nyilvánvaló érdeklődés mutatkozik a tanulás és a szakmai fejlődési lehetőségek iránt. Ennek a munkavállalói kategóriának jó esélye van arra, hogy hamarosan pótolja az első csoportot.

Így a hatékony személyzeti menedzsment módszerek bevezetését célzó kampány tervezésénél nyilvánvaló, hogy a mi helyzetünkben lehetséges a második csoport szociális csomagjának emelése például a bérek rovására.

Ha már arról beszélünk, hogy mely szakembereket érdemes továbbképzésre küldeni, akkor mindenképpen a harmadik csoportra ajánlhatjuk a figyelmet.

Forrás: http://website/www.nickart.spb.ru/analysis/cluster.php

A klaszteranalízis jellemzői

A klaszter egy eszköz ára egy adott időszakban, amely alatt a tranzakciókat végrehajtották. Az így létrejövő vásárlások és eladások mennyiségét egy szám jelzi a klaszteren belül.

Bármely TF sávja általában több klasztert tartalmaz. Ez lehetővé teszi, hogy részletesen megtekinthesse a vásárlások, eladások mennyiségét és azok egyenlegét minden egyes sávban, minden árszinthez.


Egy eszköz árának változása elkerülhetetlenül magával vonja a többi eszköz ármozgásának láncolatát is.

Figyelem!

A legtöbb esetben a trendmozgás megértése már abban a pillanatban megtörténik, amikor az gyorsan fejlődik, és a trend mentén történő piacra lépés korrekciós hullámba eséssel jár.

A sikeres kereskedéshez meg kell érteni a jelenlegi helyzetet és képesnek kell lenni előre látni a jövőbeni ármozgásokat. Ezt a klasztergráf elemzésével lehet megtanulni.

A klaszterelemzés segítségével a legkisebb ársávon belül is látható a piaci szereplők aktivitása. Ez a legpontosabb és legrészletesebb elemzés, mivel az egyes eszközárszintekhez tartozó tranzakciós volumen pont szerinti eloszlását mutatja.

A piacon állandó konfrontáció van az eladók és a vevők érdekei között. És minden legkisebb ármozgás (pipa) egy kompromisszum - az árszínvonal - lépés, amely be Ebben a pillanatban mindkét félnek megfelel.

De a piac dinamikus, az eladók és a vevők száma folyamatosan változik. Ha egy időben a piacot az eladók uralták, akkor a következő pillanatban valószínűleg vevők lesznek.

A szomszédos árszinteken végrehajtott tranzakciók száma sem azonos. Pedig először is a piaci helyzet tükröződik a tranzakciók összvolumenében, és csak azután az árban.

Ha látja a domináns piaci szereplők (eladók vagy vevők) lépéseit, akkor magát az ármozgást is előre jelezheti.

A fürtelemzés sikeres alkalmazásához először meg kell értenie, mi a fürt és a delta.


A klasztert ármozgásnak nevezzük, amely szintekre oszlik, amelyeken ismert volumenű tranzakciókat bonyolítottak le. A delta az egyes klaszterekben előforduló vétel és eladás közötti különbséget mutatja.

Minden klaszter vagy delták csoportja lehetővé teszi annak kiderítését, hogy egy adott időpontban a vevők vagy az eladók uralják-e a piacot.

Elég csak a teljes deltát kiszámítani az eladások és vásárlások összegzésével. Ha a delta negatív, akkor a piac túladott, redundáns eladási tranzakciók vannak. Ha a delta pozitív, a piacot egyértelműen a vásárlók uralják.

Maga a delta normál vagy kritikus értéket vehet fel. A klaszterben a normál érték feletti delta térfogat értéke piros színnel van kiemelve.

Ha a delta mérsékelt, akkor ez a piac lapos állapotát jellemzi. Normál delta érték mellett trendmozgás figyelhető meg a piacon, de a kritikus érték mindig az árforduló előhírnöke.

Forex kereskedés a CA-val

A maximális profit eléréséhez meg kell tudnia határozni a delta átmenetét a mérsékelt szintről a normál szintre. Valójában ebben az esetben észreveheti a lakásból a trendmozgásba való átmenet legelejét, és a legtöbb profitot érheti el.

A fürtdiagram vizuálisabb, rajta látható a kötetek jelentős felhalmozódása és eloszlása, az építési támogatási és ellenállási szintek. Ez lehetővé teszi a kereskedő számára, hogy megtalálja a kereskedés pontos bejegyzését.

A delta segítségével meg lehet ítélni az eladások vagy vásárlások túlsúlyát a piacon. A fürtelemzés lehetővé teszi a tranzakciók megfigyelését és mennyiségük nyomon követését bármely TF sávján belül.

Ez különösen fontos, ha jelentős támogatási vagy ellenállási szintet közelít meg. A klaszterek megítélése a kulcsa a piac megértésének.

Forrás: http://website/orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

A klaszteranalízis alkalmazási területei és jellemzői

A klaszteranalízis kifejezés (elsőként Tryon, 1939) valójában különféle osztályozási algoritmusokat tartalmaz.

Általános kérdés, amit számos területen kérdeznek a kutatók, hogyan lehet a megfigyelt adatokat vizuális struktúrákba rendezni, azaz. taxonómiákat bővíteni.

Vminek megfelelően modern rendszer A biológiában elfogadott módon az ember a főemlősök, emlősök, magzatvíz, gerincesek és állatok közé tartozik.

Vegye figyelembe, hogy ebben az osztályozásban minél magasabb az aggregáció szintje, annál kisebb a hasonlóság a megfelelő osztály tagjai között.

Az ember több hasonlóságot mutat más főemlősökkel (azaz majmokkal), mint az emlősök családjának "távoli" tagjaival (azaz a kutyákkal), stb.

Vegye figyelembe, hogy az előző tárgyalás a klaszterezési algoritmusokra vonatkozik, de nem tesz említést a statisztikai szignifikancia teszteléséről.

Valójában a klaszteranalízis nem annyira egy közönséges statisztikai módszer, mint inkább különféle algoritmusok „halmaza” az objektumok „klaszterekbe való elosztására”.

Van egy olyan álláspont, hogy sok más statisztikai eljárástól eltérően a klaszterelemzési módszereket a legtöbb esetben akkor alkalmazzák, ha nincs a priori hipotézise az osztályokról, de még a vizsgálat leíró szakaszában van.

Figyelem!

Meg kell érteni, hogy a klaszterelemzés határozza meg a „legértelmesebb döntést”.

Ezért a statisztikai szignifikancia tesztelése itt nem igazán alkalmazható, még akkor sem, ha a p-szintek ismertek (mint például a K-közép módszernél).

A klaszterezési technikát számos területen alkalmazzák. Hartigan (1975) kiváló áttekintést adott a klaszterelemzési módszerekkel kapott eredményeket tartalmazó számos publikált tanulmányról.

Például az orvostudomány területén a betegségek csoportosítása, a betegségek kezelése vagy a betegségek tünetei széles körben használt taxonómiákhoz vezet.

A pszichiátria területén az olyan tünetcsoportok helyes diagnózisa, mint a paranoia, skizofrénia stb., elengedhetetlen a sikeres terápia szempontjából. A régészetben klaszteranalízissel a kutatók a kőeszközök, temetkezési tárgyak stb. taxonómiáját próbálják megállapítani.

A klaszterelemzés széles körben alkalmazható a marketingkutatásban. Általánosságban elmondható, hogy amikor az információ "hegyeit" további feldolgozásra alkalmas csoportokba kell sorolni, a klaszterelemzés nagyon hasznosnak és hatékonynak bizonyul.

Fa klaszterezés

Az Elsődleges cél részben található példa elmagyarázza az összekapcsolási (fa klaszterezési) algoritmus célját.

Ennek az algoritmusnak az a célja, hogy az objektumokat (például állatokat) kellően nagy klaszterekké egyesítse az objektumok közötti hasonlóság vagy távolság bizonyos mértékével. Az ilyen klaszterezés tipikus eredménye egy hierarchikus fa.

Vegyünk egy vízszintes fa diagramot. A diagram az osztály minden objektumával kezdődik (a diagram bal oldalán).

Most képzeld el, hogy fokozatosan (nagyon kis lépésekben) "gyengíted" a kritériumot, hogy mely tárgyak egyediek és melyek nem.

Más szóval, csökkenti a két vagy több objektum egy fürtbe való egyesítésére vonatkozó döntéshez kapcsolódó küszöbértéket.

Ennek eredményeként egyre több objektumot kapcsol össze, és aggregál (kombinál) egyre több, egyre eltérőbb elemcsoportot.

Végül az utolsó lépésben az összes objektumot összevonják. Ezeken a diagramokon a vízszintes tengelyek a pooling távolságot jelentik (a függőleges dendrogramokon a függőleges tengelyek a pooling távolságot jelentik).

Tehát a gráf minden egyes csomópontjához (ahol egy új klaszter jön létre) láthatja, hogy mekkora távolságra a megfelelő elemek egy új, egyetlen klaszterbe kapcsolódnak.

Ha az adatok világos "struktúrával" rendelkeznek az egymáshoz hasonló objektumok klaszterei tekintetében, akkor ez a struktúra valószínűleg különböző ágakon tükröződik a hierarchikus fában.

Az összekapcsolási módszerrel végzett sikeres elemzés eredményeként lehetővé válik a klaszterek (elágazások) kimutatása és értelmezése.

Az unió vagy fa klaszterezési módszert az objektumok közötti különbségek vagy távolságok klasztereinek kialakítására használják. Ezek a távolságok meghatározhatók egydimenziós vagy többdimenziós térben.

Például, ha egy kávézóban össze kell csoportosítania az ételfajtákat, figyelembe veheti a benne lévő kalóriák számát, az árat, az íz szubjektív értékelését stb.

A többdimenziós térben lévő objektumok közötti távolság kiszámításának legközvetlenebb módja az euklideszi távolságok kiszámítása.

Ha van 2D vagy 3D tér, akkor ez a mérték a térben lévő objektumok közötti tényleges geometriai távolság (mintha az objektumok közötti távolságokat mérőszalaggal mérnék).

A pooling algoritmus azonban nem „törődik” azzal, hogy az ehhez „megadott” távolságok valósak-e vagy valamilyen más származtatott távolságmérték, ami értelmesebb a kutató számára; a kutatók előtt álló kihívás pedig a megfelelő módszer kiválasztása az adott alkalmazásokhoz.

Euklideszi távolság.Úgy tűnik, hogy ez a távolság legelterjedtebb típusa. Ez egyszerűen egy geometriai távolság többdimenziós térben, és a következőképpen számítható ki:

Ne feledje, hogy az euklideszi távolságot (és négyzetét) az eredeti adatokból számítjuk ki, nem a szabványosított adatokból.

Ez a kiszámításának szokásos módja, aminek vannak bizonyos előnyei (például két objektum távolsága nem változik, amikor új objektumot viszünk be az elemzésbe, ami kiugró értéknek bizonyulhat).

Figyelem!

A távolságokat azonban nagyban befolyásolhatják azon tengelyek közötti különbségek, amelyekből a távolságokat számítják. Például, ha az egyik tengely centiméterben van mérve, majd átváltja milliméterre (az értékeket 10-zel megszorozva), akkor a koordinátákból kiszámított végső euklideszi távolság (vagy az euklideszi távolság négyzete) drasztikusan megváltoznak, és ennek eredményeként a klaszteranalízis eredményei nagymértékben eltérhetnek a korábbiaktól.

Az euklideszi távolság négyzete. Néha érdemes négyzetre emelni a standard euklideszi távolságot, hogy nagyobb súlyt kapjanak a távolabbi objektumok.

Ezt a távolságot a következőképpen kell kiszámítani:

Várostömb távolság (Manhattan távolság). Ez a távolság egyszerűen a koordináták közötti különbségek átlaga.

A legtöbb esetben ez a távolságmérés ugyanazokhoz az eredményekhez vezet, mint a szokásos Eukleidész-távolság.

Megjegyzendő azonban, hogy ennél a mértéknél az egyes nagy eltérések (outlierek) hatása csökken (mivel nem négyzetesek). A Manhattan távolságot a következő képlettel számítják ki:

Csebisev távolság. Ez a távolság akkor lehet hasznos, ha két objektumot „különbözőként” akarunk meghatározni, ha azok bármely koordinátában (bármelyik dimenzióban) különböznek. A Csebisev távolságot a következő képlettel számítják ki:

Hatalmi távolság. Néha kívánatos fokozatosan növelni vagy csökkenteni a súlyt egy olyan mérethez, amelyhez a megfelelő objektumok nagyon eltérőek.

Ez hatványtörvény távolság használatával érhető el. A teljesítmény távolságot a következő képlettel számítjuk ki:

ahol r és p a felhasználó által meghatározott paraméterek. Néhány példa a számításokra megmutathatja, hogyan "működik" ez a mérték.

A p paraméter az egyes koordináták eltéréseinek fokozatos súlyozásáért, az r paraméter az objektumok közötti nagy távolságok fokozatos súlyozásáért felelős. Ha mindkét paraméter, r és p egyenlő kettővel, akkor ez a távolság egybeesik az euklideszi távolsággal.

Az egyet nem értés százaléka. Ezt a mértéket akkor használjuk, ha az adatok kategorikusak. Ezt a távolságot a következő képlettel számítjuk ki:

Társulás vagy egyesületi szabályzat

Az első lépésben, amikor minden objektum külön klaszter, az objektumok közötti távolságot a választott mérték határozza meg.

Ha azonban több objektum kapcsolódik egymáshoz, akkor felmerül a kérdés, hogyan kell meghatározni a klaszterek közötti távolságokat?

Más szavakkal, szüksége van egy csatlakozási vagy összekapcsolási szabályra két fürthöz. Itt többféle lehetőség kínálkozik: például összekapcsolhat két klasztert, ha a két klaszterben lévő bármely két objektum közelebb van egymáshoz, mint a megfelelő kapcsolati távolság.

Más szóval, a „legközelebbi szomszéd szabály” segítségével határozza meg a klaszterek közötti távolságot; ezt a módszert egyetlen link módszernek nevezik.

Ez a szabály "szálas" klasztereket épít, pl. a klasztereket csak egyes elemek kapcsolják össze, amelyek történetesen közelebb állnak egymáshoz, mint a többi.

Alternatív megoldásként használhat szomszédokat olyan fürtökben, amelyek a legtávolabb vannak egymástól az összes többi objektumpár közül. Ezt a módszert teljes link módszernek nevezik.

Számos más módszer is létezik a fürtök csatlakozására, hasonlóak a már tárgyaltakhoz.

Egyetlen kapcsolat (legközelebbi szomszéd módszer). Ahogy fentebb leírtuk, ennél a módszernél a két klaszter közötti távolságot a különböző klaszterekben lévő két legközelebbi objektum (legközelebbi szomszéd) távolsága határozza meg.

Ennek a szabálynak bizonyos értelemben össze kell fűznie az objektumokat, hogy klasztereket alkossanak, és az így létrejövő klasztereket általában hosszú "karakterláncok" képviselik.

Teljes kapcsolat (a legtávolabbi szomszédok módszere). Ebben a módszerben a klaszterek közötti távolságot a különböző klaszterekben lévő két objektum (azaz a "legtávolabbi szomszédok") közötti legnagyobb távolságként határozzuk meg.

Súlyozatlan páronkénti átlag. Ebben a módszerben a két különböző klaszter közötti távolságot a bennük lévő összes objektumpár közötti átlagos távolságként számítjuk ki.

A módszer akkor hatékony, ha az objektumok valójában különböző "ligeteket" alkotnak, de ugyanolyan jól működik kiterjesztett ("lánc" típusú) klaszterek esetén is.

Megjegyzendő, hogy Sneath és Sokal (1973) könyvükben bevezetik az UPGMA rövidítést, hogy ezt a módszert a számtani átlagokat használó súlyozatlan párcsoportos módszernek nevezzék.

Súlyozott páronkénti átlag. A módszer megegyezik a súlyozatlan páronkénti átlag módszerrel, azzal a különbséggel, hogy a megfelelő klaszterek mérete (vagyis a bennük lévő objektumok száma) súlyozási tényezőként szerepel a számításokban.

Ezért a javasolt módszert kell használni (az előző helyett), ha egyenlőtlen klaszterméreteket feltételezünk.

Sneath és Sokal (1973) bevezeti a WPGMA rövidítést, hogy ezt a módszert a számtani átlagokat használó súlyozott pár-csoport módszernek nevezze.

Súlyozatlan centroid módszer. Ebben a módszerben a két klaszter közötti távolságot a súlypontjaik közötti távolságként határozzuk meg.

Figyelem!

Sneath és Sokal (1973) az UPGMC mozaikszót használják, hogy ezt a módszert súlyozatlan párcsoportos módszerként említik a centroid átlagát használva.

Súlyozott centroid módszer (medián). Ez a módszer megegyezik az előzővel, azzal a különbséggel, hogy a számítások során súlyokat használnak, hogy figyelembe vegyék a klaszterméretek közötti különbséget (azaz a bennük lévő objektumok számát).

Ezért, ha jelentős különbségek vannak (vagy gyaníthatóan) a klaszterméretekben, ez a módszer előnyösebb, mint az előző.

Sneath és Sokal (1973) a WPGMC rövidítést használta, hogy súlyozott pár-csoport módszerként hivatkozzon rá a centroid átlagát használva.

Ward módszer. Ez a módszer különbözik az összes többi módszertől, mert ANOVA módszereket használ a klaszterek közötti távolságok becslésére.

A módszer minimalizálja a négyzetek összegét (SS) bármely két (hipotetikus) klaszterre, amely minden lépésben létrehozható.

Részletek Wardban (1963) találhatók. Általában véve a módszer nagyon hatékonynak tűnik, de hajlamos kis klaszterek létrehozására.

Korábban ezt a módszert a fürtözendő "objektumok" kapcsán tárgyalták. Minden más típusú elemzésben a kutatót érdeklő kérdés általában megfigyelésekben vagy változókban fejeződik ki.

Kiderült, hogy a klaszterezés, mind a megfigyelések, mind a változók alapján, egészen érdekes eredményekhez vezethet.

Képzelje el például, hogy egy orvoskutató adatokat gyűjt a szívbetegségben szenvedő betegek állapotának (megfigyelésének) különböző jellemzőiről (változóiról).

Előfordulhat, hogy a vizsgáló csoportosítja a (betegek) megfigyeléseit, hogy azonosítsa a hasonló tünetekkel rendelkező betegek csoportjait.

Ugyanakkor a kutatónak érdemes lehet változókat klaszterezni, hogy azonosítsa azokat a változók klasztereit, amelyek hasonló fizikai állapothoz kapcsolódnak.

A megfigyelések vagy változók klaszterezésére vonatkozó vita után felmerülhet a kérdés, hogy miért ne csoportosíthatnánk mindkét irányban?

A Cluster Analysis modul hatékony kétirányú csatlakozási eljárást tartalmaz, hogy ezt megtegye.

A kétirányú összevonást azonban (viszonylag ritkán) alkalmazzák olyan körülmények között, amikor a megfigyelések és a változók várhatóan egyszerre járulnak hozzá az értelmes klaszterek felfedezéséhez.

Tehát, visszatérve az előző példához, feltételezhetjük, hogy az orvoskutatónak olyan betegcsoportokat kell azonosítania, amelyek hasonlóak a fizikai állapot jellemzőinek bizonyos klasztereihez.

A kapott eredmények értelmezésének nehézsége abból adódik, hogy a különböző klaszterek közötti hasonlóságok származhatnak (vagy okai lehetnek) a változók részhalmazainak valamilyen eltéréséből.

Ezért a kapott klaszterek eredendően heterogének. Talán elsőre kissé ködösnek tűnik; Valójában más leírt klaszterelemzési módszerekkel összehasonlítva a kétirányú pooling valószínűleg a legkevésbé használt módszer.

Egyes kutatók azonban úgy vélik, hogy hatékony eszközt kínál a feltáró adatelemzéshez (további információkért lásd Hartigan leírását a módszerről (Hartigan, 1975)).

A K módszert jelent

Ez a klaszterezési módszer jelentősen eltér az olyan agglomeratív módszerektől, mint az Union (fa klaszterezés) és a Two-Way Union. Tegyük fel, hogy már vannak hipotézisei a klaszterek számáról (megfigyelés vagy változó alapján).

Megadhatja a rendszernek, hogy pontosan három klasztert hozzon létre, hogy azok a lehető legkülönbözőbbek legyenek.

Pontosan ezt a típusú problémát oldja meg a K-Means algoritmus. Általánosságban elmondható, hogy a K-közép módszer pontosan K különálló klasztert épít fel, amelyek egymástól a lehető legtávolabb vannak.

A fizikai állapot példájában az orvoskutatónak „megérzése” lehet klinikai tapasztalata alapján, hogy páciensei általában három különböző kategóriába sorolhatók.

Figyelem!

Ha igen, akkor az egyes klaszterek fizikai paramétereinek különböző mérőszámainak átlaga kvantitatív módon reprezentálná a vizsgáló hipotéziseit (pl. az 1. klaszterben lévő betegeknél magas paraméter 1, alacsonyabb paraméter 2 stb.).

Számítási szempontból ezt a módszert "fordított" varianciaanalízisnek tekintheti. A program K véletlenszerűen kiválasztott klaszterrel indul, majd megváltoztatja az objektumok hozzátartozását, hogy:

  1. minimalizálja a klasztereken belüli változékonyságot,
  2. maximalizálja a klaszterek közötti variabilitást.

Ez a módszer hasonlít a fordított varianciaanalízishez (ANOVA), mivel az ANOVA szignifikancia-tesztje összehasonlítja a csoportok közötti és a csoporton belüli variabilitást annak a hipotézisnek a tesztelésében, hogy a csoportátlagok különböznek egymástól.

A K-közép klaszterezés során a program objektumokat (azaz megfigyeléseket) egyik csoportból (klaszterből) a másikba helyez át annak érdekében, hogy a varianciaanalízis (ANOVA) végrehajtásakor a legjelentősebb eredményt kapja.

Általában a K-közép klaszteranalízis eredményeinek megszerzése után kiszámítható az egyes klaszterek átlaga minden dimenzióhoz, hogy felmérje, miben különböznek a klaszterek egymástól.

Ideális esetben nagyon eltérő eszközöket kell beszereznie az elemzésben használt mérések többségéhez, ha nem az összeshez.

Forrás: http://website/www.biometrica.tomsk.ru/textbook/modules/stcluan.html

A tárgyak osztályozása jellemzőik szerint

Klaszterelemzés (klaszteranalízis) - többdimenziós statisztikai módszerek készlete az objektumok jellemzőik szerinti osztályozására, az objektumok összességének homogén csoportokra való felosztására, amelyek a kritériumok meghatározása szempontjából közel állnak egymáshoz, egy bizonyos csoport objektumainak kiválasztásához.

A klaszter olyan objektumok csoportja, amelyeket az objektumok közötti hasonlóság vagy különbség adott mértékén alapuló klaszterelemzés eredményeként azonosítanak.

Az objektum a konkrét tanulmányi tárgyak, amelyeket be kell sorolni. Az osztályozásban szereplő objektumok általában megfigyelések. Például a termékek fogyasztói, országok vagy régiók, termékek stb.

Bár lehetséges a változók szerinti klaszteranalízis is. Az objektumok osztályozása a többdimenziós klaszteranalízisben egyszerre több kritérium szerint történik.

Ezek lehetnek mennyiségi és kategorikus változók is, a klaszteranalízis módszerétől függően. Tehát a klaszteranalízis fő célja hasonló objektumok csoportjainak megtalálása a mintában.

A klaszteranalízis többváltozós statisztikai módszereinek halmaza felosztható hierarchikus (agglomeratív és osztó) és nem hierarchikus (k-közép módszer, kétlépcsős klaszteranalízis) módszerekre.

A módszereknek azonban nincs általánosan elfogadott osztályozása, és néha a klaszterelemzési módszerek közé tartoznak a döntési fák, a neurális hálózatok, a diszkriminanciaanalízis és a logisztikus regresszió létrehozására szolgáló módszerek is.

A klaszteranalízis hatóköre sokoldalúsága miatt igen széles. A klaszterelemzést a közgazdaságtan, a marketing, a régészet, az orvostudomány, a pszichológia, a kémia, a biológia, a közigazgatás, a filológia, az antropológia, a szociológia és más területeken használják.

Íme néhány példa a klaszteranalízis alkalmazására:

  • orvostudomány - betegségek osztályozása, tüneteik, kezelési módszerek, betegcsoportok osztályozása;
  • marketing - a vállalat termékvonalának optimalizálásának, a piac árucsoportok vagy fogyasztók szerinti szegmentálásának, a potenciális fogyasztó azonosításának feladatai;
  • szociológia - a válaszadók homogén csoportokra osztása;
  • pszichiátria – a tünetcsoportok helyes diagnózisa kulcsfontosságú a sikeres terápia szempontjából;
  • biológia - az élőlények csoportosítása;
  • gazdaság - az Orosz Föderáció tantárgyainak osztályozása a befektetés vonzereje szerint.

Forrás: http://website/www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analiz.html

Általános információk a klaszterelemzésről

A klaszteranalízis különböző osztályozási algoritmusokat tartalmaz. Sok területen felteszik a kutatók gyakori kérdése, hogy a megfigyelt adatokat hogyan lehet vizuális struktúrákba rendezni.

Például a biológusok célja az állatok különböző fajokra bontása, hogy értelmesen leírják a köztük lévő különbségeket.

A klaszteranalízis feladata, hogy a kezdeti objektumkészletet hasonló, közeli objektumok csoportjaira bontsa. Ezeket a csoportokat klasztereknek nevezzük.

Más szóval, a klaszteranalízis az objektumok jellemzőik szerinti osztályozásának egyik módja. Kívánatos, hogy az osztályozási eredmények értelmes értelmezést kapjanak.

A klaszterelemzési módszerekkel kapott eredményeket számos területen hasznosítják. A marketingben ez a versenytársak és a fogyasztók szegmentálása.

A pszichiátriában az olyan tünetek helyes diagnózisa, mint a paranoia, skizofrénia stb., kulcsfontosságú a sikeres terápia szempontjából.

A menedzsmentben fontos a beszállítók besorolása, a hasonló termelési helyzetek azonosítása, amelyben házasság jön létre. A szociológiában a válaszadók homogén csoportokra való felosztása. A portfólióbefektetéseknél fontos az értékpapírok hozamtrendbeli hasonlóságuk szerinti csoportosítása, hogy a tőzsdéről szerzett információk alapján olyan optimális befektetési portfóliót állítsunk össze, amely adott kockázati fok mellett lehetővé teszi a befektetések megtérülésének maximalizálását. .

Általánosságban elmondható, hogy amikor nagy mennyiségű ilyen jellegű információt kell osztályozni és további feldolgozásra alkalmas formában kell bemutatni, a klaszteranalízis nagyon hasznosnak és hatékonynak bizonyul.

A klaszterelemzés lehetővé teszi meglehetősen nagy mennyiségű információ figyelembevételét és a társadalmi-gazdasági információk nagy tömbeinek nagymértékű tömörítését, ezáltal azok kompakt és vizuális megjelenését.

Figyelem!

A klaszterelemzés nagy jelentőséggel bír az idősorokat jellemző halmazok kapcsán gazdasági fejlődés(például általános gazdasági és árukonjunktúra).

Itt lehet kiemelni azokat az időszakokat, amikor a megfelelő mutatók értékei meglehetősen közel voltak, valamint meghatározható az idősorok csoportja, amelyek dinamikája a leginkább hasonló.

A társadalmi-gazdasági előrejelzés problémáiban nagyon ígéretes a klaszteranalízis más kvantitatív módszerekkel (például regressziós elemzéssel) való kombinálása.

Előnyök és hátrányok

A fürtelemzés lehetővé teszi minden olyan objektum objektív osztályozását, amelyekre számos jellemző jellemző. Ennek számos előnye származhat:

  1. Az így létrejövő klaszterek értelmezhetők, vagyis leírhatók, hogy valójában milyen csoportok léteznek.
  2. Az egyes klaszterek selejtezhetők. Ez olyan esetekben hasznos, amikor bizonyos hibák történtek az adatkészletben, aminek következtében az egyes objektumok indikátorainak értékei élesen eltérnek. Klaszteranalízis alkalmazásakor az ilyen objektumok külön fürtbe esnek.
  3. További elemzéshez csak azokat a klasztereket lehet kiválasztani, amelyek rendelkeznek az érdeklődésre számot tartó jellemzőkkel.

Mint minden más módszernek, a klaszteranalízisnek is vannak bizonyos hátrányai és korlátai. Különösen a fürtök összetétele és száma függ a kiválasztott particionálási feltételektől.

A kezdeti adattömb kompaktabb formára való redukálásakor bizonyos torzulások léphetnek fel, és az egyes objektumok egyedi jellemzői is elveszhetnek, mivel azokat a klaszterparaméterek általánosított értékeinek jellemzői helyettesítik.

Mód

Jelenleg több mint száz különböző klaszterező algoritmus ismert. Sokféleségüket nemcsak a különböző számítási módszerek magyarázzák, hanem a klaszterezés alapjául szolgáló különböző fogalmak is.

A Statistica csomag a következő klaszterezési módszereket valósítja meg.

  • Hierarchikus algoritmusok - fa klaszterezés. A hierarchikus algoritmusok a szekvenciális klaszterezés elvén alapulnak. A kezdeti lépésben minden objektumot külön fürtnek tekintünk. A következő lépésben az egymáshoz legközelebb eső klaszterek egy részét külön fürtté egyesítik.
  • K-módszer. Ez a módszer a leggyakrabban használt. A klaszteranalízis ún. referenciamódszereinek csoportjába tartozik. A K klaszterek számát a felhasználó állítja be.
  • Kétirányú társulás. Ennek a módszernek a használatakor a klaszterezés egyszerre történik változók (oszlopok) és megfigyelési eredmények (sorok) alapján.

A kétirányú összekapcsolási eljárást akkor hajtják végre, ha várható, hogy a változók és megfigyelések egyidejű klaszterezése értelmes eredményeket hoz.

Az eljárás eredménye a változókra és esetekre vonatkozó leíró statisztika, valamint egy kétdimenziós színdiagram, amelyen az adatértékek színkódolásra kerülnek.

A színek eloszlásával képet kaphat a homogén csoportokról.

Változók normalizálása

Az objektumok kezdeti halmazának klaszterekre való felosztása az objektumok közötti távolság kiszámításához és az objektumok kiválasztásához kapcsolódik, amelyek közötti távolság a lehető legkisebb.

A leggyakrabban használt euklideszi (geometriai) távolság, amelyet mindannyian ismerünk. Ez a mérőszám az objektumok térbeli közelségére vonatkozó intuitív elképzeléseknek felel meg (mintha az objektumok közötti távolságokat mérőszalaggal mérnék).

De egy adott metrika esetében az objektumok közötti távolságot erősen befolyásolhatják a léptékek (mértékegységek) változásai. Például, ha az egyik jellemzőt milliméterben mérjük, majd az értékét centiméterre konvertáljuk, akkor az objektumok közötti euklideszi távolság drámaian megváltozik. Ez oda vezet, hogy a klaszteranalízis eredményei jelentősen eltérhetnek a korábbiaktól.

Ha a változókat különböző mértékegységekben mérjük, akkor ezek előzetes normalizálása szükséges, vagyis a kiindulási adatok transzformálása, amely azokat dimenzió nélküli mennyiségekké alakítja.

A normalizálás erősen torzítja az eredeti tér geometriáját, ami megváltoztathatja a klaszterezés eredményeit

A Statistica csomagban bármely x változó a következő képlet szerint normalizálva van:

Ehhez kattintson a jobb gombbal a változó nevére, és a megnyíló menüből válassza ki a parancssort: Fill/ Standardize Block/ Standardize Columns. A normalizált változó értékei nullával, a szórások pedig eggyel lesznek egyenlők.

K-közép módszer a Statisticában

A K-közép módszer az objektumok halmazát adott K számú különböző klaszterre osztja fel, amelyek egymástól a lehető legnagyobb távolságban helyezkednek el.

Általában a K-közép klaszteranalízis eredményeinek megszerzése után kiszámítható az egyes klaszterek átlaga minden dimenzióhoz, hogy felmérje, miben különböznek egymástól a klaszterek.

Ideális esetben nagyon eltérő eszközöket kell beszereznie az elemzésben használt legtöbb méréshez.

Az egyes dimenziókhoz kapott F-statisztikai értékek egy másik mutatója annak, hogy a megfelelő dimenzió mennyire tesz különbséget a klaszterek között.

Példaként tekintsük egy vállalkozás 17 alkalmazottjának a karrierminőségi mutatókkal való elégedettségről szóló felmérésének eredményeit. A táblázat a kérdőív kérdéseire adott válaszokat tízfokú skálán tartalmazza (1 a minimum pontszám, 10 a maximum).

A változónevek a következő kérdésekre adott válaszoknak felelnek meg:

  1. SLT - a személyes célok és a szervezet céljainak kombinációja;
  2. OSO - a méltányosság érzése a bérekben;
  3. TBD - a ház területi közelsége;
  4. PEW - a gazdasági jólét érzése;
  5. CR - karrier növekedés;
  6. ZhSR - a munkahelyváltás vágya;
  7. Az OSB a társadalmi jólét érzése.

Ezen adatok felhasználásával az alkalmazottakat csoportokra kell osztani, és mindegyiküknek ki kell osztani a leghatékonyabb vezérlőkarokat.

Ugyanakkor a csoportok közötti különbségeknek szembetűnőnek kell lenniük, a csoporton belül pedig a válaszadók minél hasonlóbbak legyenek.

A mai napig a legtöbb szociológiai felmérés csak a szavazatok százalékát adja: figyelembe veszik a pozitív válaszok fő számát, vagy az elégedetlenek százalékos arányát, de ezt a kérdést nem veszik szisztematikusan figyelembe.

Leggyakrabban a felmérés nem mutat trendeket a helyzetben. Bizonyos esetekben nem a „mellett” vagy „ellen” képviselők számát kell számolni, hanem a távolságot, vagy a hasonlóság mértékét, vagyis meghatározni az egyformán gondolkodó embercsoportokat.

A klaszterelemzési eljárásokkal a felmérési adatok alapján azonosíthatók a jellemzők néhány valóban létező kapcsolatai, és ezek alapján hozhatók létre azok tipológiája.

Figyelem!

A klaszterelemzési eljárásokkal végzett munka során a szociológus a priori hipotéziseinek megléte nem szükséges feltétel.

A Statistica programban a klaszterelemzés a következőképpen történik.

A klaszterek számának megválasztásánál a következőket kell követni: a klaszterek száma lehetőleg ne legyen túl nagy.

Az a távolság, amelyen belül egy adott klaszter objektumai csatlakoztak, lehetőleg sokkal kisebb legyen, mint az a távolság, amelynél valami más csatlakozik ehhez a klaszterhez.

A klaszterek számának megválasztásakor leggyakrabban több helyes megoldás is létezik egyszerre.

Érdekel például, hogy a kérdőív kérdéseire adott válaszok hogyan viszonyulnak a hétköznapi alkalmazottakhoz és a vállalkozás vezetéséhez. Ezért a K=2-t választjuk. A további szegmentáláshoz növelheti a fürtök számát.

  1. válassza ki a megfigyeléseket a klaszterközpontok közötti maximális távolsággal;
  2. távolságok rendezése és megfigyelések kiválasztása rendszeres időközönként (alapbeállítás);
  3. vegyük az első megfigyelési központokat, és rögzítsük hozzájuk a többi tárgyat.

Az 1. lehetőség megfelel a céljainknak.

Sok klaszterező algoritmus gyakran olyan struktúrát „szab meg”, amely nem az adatok velejárója, és megzavarja a kutatót. Ezért rendkívül szükséges több klaszterelemzési algoritmus alkalmazása és az algoritmusok eredményeinek általános értékelése alapján következtetések levonása.

Az elemzés eredményei a megjelenő párbeszédpanelen tekinthetők meg:

Ha kiválasztja az Átlagok grafikonja lapot, a klaszterközéppontok koordinátáinak grafikonja jelenik meg:


Ezen a grafikonon minden szaggatott vonal az egyik klaszternek felel meg. A grafikon vízszintes tengelyének minden felosztása megfelel az elemzésben szereplő változók valamelyikének.

A függőleges tengely az egyes klaszterekbe tartozó objektumok változóinak átlagos értékeinek felel meg.

Megállapítható, hogy szinte minden kérdésben jelentős különbségek mutatkoznak a két embercsoport szolgáltatói pályához való hozzáállásában. Csak egy kérdésben van teljes egyhangúság - a társadalmi jólét (OSB) értelmében, vagy inkább annak hiánya (2,5 pont/10).

Feltételezhető, hogy az 1. klaszter a dolgozókat, a 2. klaszter pedig a menedzsmentet jelenti. A vezetők elégedettebbek a karrierfejlesztéssel (CR), a személyes célok és a szervezeti célok (SOL) kombinációjával.

Magasabb a gazdasági jólét (SEW) és a fizetési igazságosság (SWA) érzése.

Kevésbé aggódnak az otthonuk közelsége miatt, mint a dolgozók, valószínűleg a kevesebb közlekedési probléma miatt. Ezenkívül a vezetők kevésbé akarnak munkahelyet váltani (JSR).

Annak ellenére, hogy a munkavállalókat két kategóriába sorolják, a legtöbb kérdésre viszonylag azonos választ adnak. Más szóval, ha valami nem felel meg a munkavállalók általános csoportjának, az nem felel meg a felső vezetésnek, és fordítva.

A grafikonok harmonizációja arra enged következtetni, hogy az egyik csoport jóléte egy másik csoport jólétében tükröződik.

Az 1. klaszter nem elégedett a ház területi közelségével. Ez a csoport alkotja a munkavállalók nagy részét, akik elsősorban a város különböző pontjairól érkeznek a vállalkozáshoz.

Ezért fel lehet ajánlani a felső vezetésnek, hogy a nyereség egy részét a vállalkozás alkalmazottainak lakásépítésre fordítsa.

Jelentős különbségek láthatók a két embercsoport szolgáltatói pályához való hozzáállásában. Azok a munkavállalók, akik elégedettek a karrier növekedésével, akiknél nagy az egyezés a személyes és a szervezeti célok között, nem vágynak munkahelyet váltani, és elégedettek munkájuk eredményével.

Ezzel szemben azok a munkavállalók, akik munkahelyet akarnak váltani, és elégedetlenek munkájuk eredményével, nem elégedettek a fenti mutatókkal. A felső vezetésnek különös figyelmet kell fordítania a jelenlegi helyzetre.

Az egyes attribútumok varianciaanalízisének eredményei a Varianciaanalízis gomb megnyomásával jelennek meg.

Megjelennek az objektumok klaszterközpontoktól való eltéréseinek négyzetösszegei (SS belül), valamint a klaszterközéppontok közötti eltérések négyzetösszegei (SS Between), az F-statisztikai értékek és a p szignifikanciaszintek.

Figyelem!

Példánkban a két változó szignifikanciaszintje meglehetősen nagy, amit a megfigyelések kis száma magyaráz. A tanulmány teljes változatában, amely a cikkben található, a klaszterközpontok átlagegyenlőségére vonatkozó hipotéziseket 0,01-nél kisebb szignifikanciaszinteken elvetik.

Az Osztályozások és távolságok mentése gomb megjeleníti az egyes fürtökben lévő objektumok számát és az objektumok távolságát az egyes klaszterek közepétől.

A táblázat bemutatja a CLUSTER számokkal rendelkező fürtöket alkotó esetszámokat (CASE_NO), valamint az egyes klaszterek középpontjától való távolságokat (DISTANCE).

A fürtökhöz tartozó objektumokkal kapcsolatos információk fájlba írhatók, és felhasználhatók további elemzésekhez. Ebben a példában a kérdőívekkel kapott eredmények összehasonlítása azt mutatta, hogy az 1. klaszter főleg hétköznapi dolgozókból, a 2. klaszter pedig vezetőkből áll.

Látható tehát, hogy a felmérés eredményeinek feldolgozása során a klaszteranalízis olyan hatékony módszernek bizonyult, amely lehetővé teszi olyan következtetések levonását, amelyekre nem lehet levonni az átlagok hisztogramjának felépítésével vagy a különböző mutatókkal elégedettek százalékos arányának kiszámítását. a munkahelyi élet minősége.

A fa klaszterezés egy példa egy hierarchikus algoritmusra, melynek alapelve, hogy először a legközelebbi, majd az egymástól egyre távolabbi elemeket szekvenciálisan klaszterbe csoportosítjuk.

A legtöbb ilyen algoritmus egy hasonlósági (távolságok) mátrixból indul ki, és minden egyes elemet először külön klaszternek tekintünk.

A fürtelemző modul betöltése és a Csatlakozás (fafürtözés) kiválasztása után a következő paramétereket módosíthatja a fürtözési paraméterek beviteli ablakában:

  • Kezdeti adatok (Input). Lehetnek a vizsgált adatok mátrixa (Raw data) és távolságmátrix (Distance matrix) formájában.
  • Klaszterezési (Cluster) megfigyelések (Cases (raw)) vagy változók (Variable (oszlopok)), amelyek leírják az objektum állapotát.
  • Távolságmérés. Itt a következő mértékeket választhatja ki: Euklideszi távolságok, Négyzetes euklideszi távolságok, Várostömb (Manhattan) távolság, Csebicsev távolság metrika, Teljesítmény...), az egyet nem értés százaléka (Percent disagreement).
  • Klaszterezési módszer (Amalgamation (linkage) szabály). Itt a következő lehetőségek állnak rendelkezésre: Egyszeri kapcsolat, Teljes kapcsolódás, Súlyozatlan pár-csoport átlag, Súlyozott pár-csoport átlag ), Súlyozatlan pár-csoport centroid, Súlyozott pár-csoport centroid (medián), Ward módszere.

A klaszterezés eredményeként egy vízszintes vagy függőleges dendrogram épül fel - egy grafikon, amelyen az objektumok és a klaszterek közötti távolságok meghatározásra kerülnek, ha szekvenciálisan kombinálják őket.

A gráf fastruktúrája lehetővé teszi a klaszterek meghatározását a kiválasztott küszöbértéktől – a klaszterek közötti adott távolságtól függően.

Ezenkívül megjelenik az eredeti objektumok közötti távolságok mátrixa (Distance matrix); az egyes forrásobjektumok átlagát és szórását (Distiptív statisztika).

A vizsgált példában az alapértelmezett beállításokkal rendelkező változók klaszteranalízisét hajtjuk végre. Az így kapott dendrogramot az ábra mutatja.


A dendrogram függőleges tengelye az objektumok, valamint az objektumok és klaszterek közötti távolságokat ábrázolja. Tehát a SEB és az OSD változók közötti távolság öt. Ezeket a változókat az első lépésben egy klaszterbe egyesítik.

A dendrogram vízszintes szegmensei az adott klaszterezési lépéshez kiválasztott küszöbtávolságoknak megfelelő szinteken rajzolódnak ki.

A grafikonon látható, hogy a „munkahelyváltási vágy” (JSR) kérdés külön klasztert alkot. Általában mindenkit egyformán meglátogat a vágy, hogy bárhol lerakjanak. Továbbá külön klaszter az otthonhoz való területi közelség (LHB) kérdése.

Fontosságát tekintve a második helyen áll, ami megerősíti a lakásépítés szükségességére vonatkozó, a K-közép módszerrel végzett vizsgálat eredményei alapján levont következtetést.

A gazdasági jólét érzése (PEW) és a fizetési egyenlőség (PWA) ötvöződik – ez a gazdasági kérdések egy blokkja. A karrier előrehaladás (CR) és a személyes célok és a szervezeti célok kombinációja (COL) szintén kombinálva van.

Más klaszterezési módszerek, valamint más típusú távolságok megválasztása nem vezet jelentős változáshoz a dendrogramban.

Eredmények:

  1. A klaszterelemzés hatékony eszköz a feltáró adatelemzésekhez és statisztikai kutatásokhoz bármely témakörben.
  2. A Statistica program a klaszterelemzés hierarchikus és strukturális módszereit egyaránt megvalósítja. Ennek a statisztikai csomagnak az előnyei a grafikus képességeikből fakadnak. A kapott klaszterek kétdimenziós és háromdimenziós grafikus ábrázolása a vizsgált változók terében, valamint az objektumok csoportosítására szolgáló hierarchikus eljárás eredményei.
  3. Több klaszterelemzési algoritmust kell alkalmazni, és az algoritmusok eredményeinek általános értékelése alapján következtetéseket levonni.
  4. A klaszteranalízis akkor tekinthető sikeresnek, ha különböző módon hajtjuk végre, az eredményeket összehasonlítjuk és közös mintákat találunk, illetve klaszterezési módszertől függetlenül stabil klasztereket találunk.
  5. A klaszterelemzés lehetővé teszi a problémahelyzetek azonosítását és a megoldási módok felvázolását. Ezért ez a nem-paraméteres statisztikai módszer a rendszerelemzés szerves részének tekinthető.

klaszteranalízis különböző formalizált eljárásokat neveznek az objektumok osztályozásának felépítésére. A klaszteranalízis fejlesztésének vezető tudománya a biológia volt. A klaszteranalízis tárgyát (az angol "cluster" szóból - bunch, bundle, group) Robert Tryon pszichológus fogalmazta meg 1939-ben. A klaszteranalízis klasszikusai Robert Sokal és Peter Snit amerikai taxonómusok. Egyik legfontosabb vívmányuk ezen a területen az 1963-ban megjelent "Principles of Numerical Taxonomy" című könyv. A szerzők fő gondolata szerint az osztályozásnak nem az objektumok hasonlóságáról és kapcsolatáról szóló rosszul formalizált ítéletek keverékén kell alapulnia, hanem a hasonlóságok matematikai számítási eredményeinek formalizált feldolgozásának eredményein. / különbségek a besorolandó objektumok között. A feladat elvégzéséhez megfelelő eljárásokra volt szükség, amelyek kidolgozását a szerzők vállalták.

A klaszterelemzés fő szakaszai a következők:
1. összehasonlítható objektumok kiválasztása;
2. az összehasonlítandó jellemzők halmazának kiválasztása és az objektumok leírása ezeknek a jellemzőknek megfelelően;
3. az objektumok közötti hasonlóság mértékének (vagy az objektumok közötti különbség mértékének) kiszámítása a választottnak megfelelően metrikus;
4. objektumok csoportosítása klaszterekbe egyik vagy másik segítségével összevonási eljárások;
5. a kapott klasztermegoldás alkalmazhatóságának ellenőrzése.

Tehát a klaszterezési eljárás legfontosabb jellemzői a metrika kiválasztása (különböző helyzetekben jelentős számú különböző mérőszámot használnak) és az egyesülési eljárás megválasztása (és ebben az esetben sokféle lehetőség). Egyik-másik mérőszám, illesztési eljárás alkalmasabb a különböző helyzetekre, de bizonyos mértékig ízlés és hagyomány kérdése a választás közöttük. A Klaszterek, kincsek és az objektivitás kimérája című cikkben részletesebben kifejtettek szerint az a remény, hogy a klaszterelemzés egy olyan osztályozás felépítéséhez vezet, amely semmiképpen sem függ a kutató önkényétől, betarthatatlannak bizonyul. A klaszteranalízist alkalmazó vizsgálat öt szakasza közül csak a 4. szakasz nem kapcsolódik többé-kevésbé önkényes, a végeredményt befolyásoló döntés meghozatalához. Mind az objektumok, mind a jellemzők megválasztása, mind a metrikák kiválasztása az összevonási eljárással együtt jelentősen befolyásolja a végeredményt. Ez a választás számos körülménytől függhet, beleértve a tanulmány explicit és implicit preferenciáit és elvárásait. Sajnos ez a körülmény nem csak a klaszteranalízis eredményét érinti. Minden „objektív” módszer hasonló problémákkal küzd, beleértve minden kladisztikus módszerek.

Található-e egyetlen helyes megoldás az objektumok halmazának, a jellemzők halmazának, a metrika típusának és az összekapcsolási eljárásnak a kiválasztásával? Nem. Ennek bizonyítására bemutatunk egy cikkrészletet, amelynek linkjét az előző bekezdés tartalmazza.

"Valójában még arra a kérdésre sem tudunk mindig határozottan válaszolni, hogy mely tárgyak hasonlítanak jobban egymáshoz és melyek különböznek egymástól. Sajnos egyszerűen nincsenek általánosan elfogadott (nemhogy „objektív”) kritériumok az osztályozott objektumok közötti hasonlóságok és különbségek mérőszámának kiválasztására.

Melyik objektum hasonlít jobban az A objektumhoz: B vagy C? Ha a távolságot használjuk hasonlósági mérőszámként, akkor C-n: |AC|<|AB|. А если полагаться на корреляцию между показанными на рисунке признаками (которую можно описать как угол между вектором, идущим к объекту из начала координат, и осью абсцисс), то на B: . Akkor mi a helyes út? És nincs egyetlen helyes válasz. Egyrészt a kifejlett varangy jobban hasonlít egy kifejlett békára (mindkettő felnőtt), másrészt egy fiatal varangyra (mindkét varangy)! A helyes válasz attól függ, hogy mit tartunk fontosabbnak.".

A klaszterelemzés a modern tudományban találta a legszélesebb körű alkalmazást. Sajnos az esetek nagy részében, ahol ezt használják, jobb lenne más módszereket alkalmazni. A szakbiológusoknak mindenesetre világosan meg kell érteniük a klaszteranalízis alapvető logikáját, és csak ebben az esetben tudják alkalmazni azokban az esetekben, ahol megfelelő, és nem akkor, amikor a másik módszer kiválasztása optimális. .

8.2. Példa a klaszteranalízisre "az ujjakon"

A klaszterelemzés tipikus logikájának magyarázatához tekintse meg annak szemléltető példáját. Tekintsünk egy 6 objektumból álló halmazt (betűkkel jelölve), amelyeket a legegyszerűbb típus 6 jellemzője jellemez: alternatív, két érték egyikét veszi fel: jellemző (+) és nem jellemző (-). Az objektumok leírását az elfogadott jellemzők szerint "téglalap alakú" mátrixnak nevezzük. Esetünkben 6×6-os mátrixról beszélünk, azaz. eléggé "négyzetnek" tekinthető, de általános esetben előfordulhat, hogy az elemzésben szereplő objektumok száma nem egyezik meg a jellemzők számával, és egy "téglalap alakú" mátrixban eltérő számú sor és oszlop is lehet. Tehát állítsuk be" téglalap alakú" mátrix (objektum/jellemző mátrix):

Az objektumok kiválasztása és leírása bizonyos jellemzők alapján megfelel a klaszteranalízis első két szakaszának. A következő lépés a hasonlóságok vagy különbségek mátrixának felépítése (egy „négyzetes” mátrix, egy objektum/objektum mátrix). Ehhez ki kell választanunk egy mérőszámot. Mivel a példánk feltételes, célszerű a legegyszerűbb mérőszámot választani. Hogyan határozható meg legkönnyebben az A és B objektumok távolsága? Számolja meg a köztük lévő különbségek számát. Mint látható, az A és B objektumok a 3. és 5. jellemzőben különböznek, így a két objektum közötti távolság két egységnek felel meg.

Ezzel a mérőszámmal megszerkesztjük a " négyzet" mátrix (objektumok/objektummátrix). Könnyen belátható, hogy egy ilyen mátrix két szimmetrikus félből áll, és ezek közül csak az egyik fél tölthető ki:

Ebben az esetben különbségi mátrixot építettünk fel. A hasonlósági mátrix így nézne ki, csak minden pozícióban lenne egy érték, amely megegyezik a maximális távolság (6 egység) és az objektumok közötti különbség különbségével. Egy A és B pár esetén a hasonlóság természetesen 4 egység lenne.

Melyik két tárgy van a legközelebb egymáshoz? B és F, csak egy tulajdonságban különböznek egymástól. A klaszteranalízis lényege, hogy hasonló objektumokat egyesítenek egy klaszterbe. Kombinálja a B és F objektumot egy klaszterbe (BF). Mutassuk meg a diagramon. Mint látható, az objektumok a köztük lévő távolságnak megfelelő szinten vannak kombinálva.

Rizs. 8.2.1. A 6 objektumból álló feltételes halmaz klaszterezésének első lépése

Most nem hat tárgyunk van, hanem öt. Rekonstruáljuk a "négyzet" mátrixot. Ehhez meg kell határoznunk, hogy mekkora a távolság az egyes objektumok és a klaszter között. Távolság tőle A-tól B-ig 2 egység, A-tól F-ig 3 egység volt. Mekkora a távolság A és (bf)? Itt nincs helyes válasz. Itt nézzük meg, hogyan helyezkedik el ez a három objektum egymáshoz képest.

Rizs. 8.2.2. A három objektum egymáshoz viszonyított helyzete

Lehet, hogy az objektum és a csoport távolsága az objektumtól a csoportban hozzá legközelebbi objektumig terjedő távolság, azaz. azaz │A(BF) │=│AB │? Ez a logika egyezik csatlakozzon maximális hasonlósággal.

Vagy talán az objektumtól a csoportig terjedő távolság az objektumtól a csoportban tőle legtávolabb lévő objektumig terjedő távolság, azaz. azaz │A(BF) │=│AF │? Ez a logika egyezik minimális hasonlóság csatlakozás.

Úgy is tekinthetjük, hogy az objektumtól egy csoportig tartó távolság az ettől az objektumtól a csoportban lévő objektumok közötti távolságok számtani átlaga, t azaz │A(BF) │=(│AB │+│AF │)/2. Ezt a megoldást ún az átlagos hasonlóság általi csatlakozás.

Mind ez a három megoldás, és számos egyéb, itt nem ismertetett megoldás helyes. Feladatunk, hogy olyan megoldást válasszunk, amely jobban megfelel annak a kategóriának, amelybe adataink tartoznak. A maximális hasonlóság általi kötődés végső soron hosszú, „szalagszerű” klaszterekhez vezet. A minimum szerint - a csoportok feldarabolásához. A három ismertetett lehetőség közötti választásnál a biológiában gyakrabban alkalmazzák az átlagos hasonlóság alapján történő csatlakozást. Mi is használjuk őket. Ebben az esetben az első klaszterezési lépés után a „négyzetes” mátrix így fog kinézni.

Most a legközelebbi tárgypár a D és az E. Ezeket is egyesítsük.

Rizs. 8.2.3. A 6 objektumból álló feltételes halmaz klaszterezésének második lépése

Építsük újra a „négyzet” mátrixot négy objektumra.

Látjuk, hogy a 2.5-ös szinten való csatlakozásnak két lehetősége van: a csatlakozás A-tól (BF)-hez és melléklethez (BF) (DE-hez). Melyiket válasszam?

Számos lehetőségünk van ennek a választásnak a meghozatalára. Ezt véletlenszerűen is meg lehet tenni. Elfogadhat néhány formális szabályt, amely lehetővé teszi a választást. És láthatja, hogy a megoldások közül melyik adja a legjobb klaszterezési lehetőséget. Használjuk az utolsó lehetőséget. Először hajtsuk végre az első lehetőséget.

Rizs. 8.2.4. A 6 objektumból álló feltételes halmaz klaszterezésének harmadik lépésének első változata

Ezt az opciót választva egy ilyen "négyzetes" 3×3-as mátrixot kellene felépíteni.

Ha a harmadik lépés második lehetőségét választottuk volna, akkor a következő képet kapnánk.

Rizs. 8.2.5. A 6 objektumból álló feltételes halmaz klaszterezésének harmadik lépésének második változata

Ez a következő 3×3-as mátrixnak felel meg:

Az így kapott 3×3-as mátrixok összehasonlíthatók, hogy megbizonyosodjunk arról, hogy a második változatban az objektumok tömörebb csoportosítása valósul meg. Az objektumok klaszteranalízissel történő osztályozásának megalkotásakor törekedni kell a hasonló objektumokat kombináló csoportok azonosítására. Minél nagyobb a hasonlóság a csoportokban lévő objektumok között, annál jobb egy ilyen osztályozás. Ezért a harmadik klaszterezési lépés második lehetőségét választjuk. Természetesen megtehetnénk a következő lépéseket (és az első opciót további két alopcióra bonthatnánk), de végül meggyőződhetnénk arról, hogy a harmadik klaszterezési lépésre pontosan az a legjobb megoldás, amelyik az 1. ábrán látható. 8.5. Megállunk rajta.

Ebben az esetben a következő lépés az objektumok egyesítése ábrán látható A és C. 8.6.

Rizs. 8.2.6. A klaszterezés negyedik lépése

2×2-es mátrixot készítünk:

Most nincs miből választani. Egyesítse a két fennmaradó klasztert a kívánt szinten. A klaszter „fák” építésének elfogadott stílusának megfelelően adjunk hozzá még egy „törzset”, amely az adott jellemzőkészlettel rendelkező objektumok közötti maximális távolság szintjéig nyúlik.

Rizs. 8.2.7. Ötödik és utolsó klaszterezési lépés

Az eredményül kapott kép egy fagráf (csúcsok és a köztük lévő kapcsolatok gyűjteménye). Ez a gráf úgy van megszerkesztve, hogy az azt alkotó egyenesek metszik egymást (ezeket a metszéspontokat "hidakként" mutattuk be). Az objektumok közötti kapcsolat jellegének megváltoztatása nélkül a gráf átépíthető úgy, hogy ne legyenek benne metszéspontok. Ezek az ábrán láthatók. 8.2.8.

Rizs. 8.2.8. A klaszterezés eredményeként kapott fagráf végső nézete

A feltételes példánk klaszteranalízise befejeződött. Csak meg kell értenünk, mit kaptunk.

8.3. A klaszteranalízis alapvető korlátai és hátrányai

ábrán látható grafikon értelmezésének módja? 8.2.8? Nincs egyetlen válasz. A kérdés megválaszolásához meg kell értenie, hogy milyen adatokat és milyen célból csoportosítottunk. "A felszínen" az a következtetés rejlik, hogy regisztráltuk, hogy az eredeti 6 objektumkészlet három párból áll. A kapott grafikont nézve nehéz ebben kétségbe vonni. Helyes azonban ez a következtetés?

Menjen vissza a legelső „négyzetes” 6×6-os mátrixhoz, és győződjön meg arról, hogy az E objektum két egységnyire volt mind a D, mind az F objektumtól. E és D hasonlósága a végső „fán” tükröződik, de az a tény, hogy Az E objektum ugyanolyan közel volt az F objektumhoz - nyomtalanul elveszett! Hogyan magyarázzuk el?

A klaszterezés eredményeként, amelyet a ábra mutat be. 8.2.8, egyáltalán nincs távolság információ│EF │, csak a │DE │ és │(BF)(DE) │ távolságokról van információ!

Minden egyes „téglalap alakú” mátrix egy bizonyos mérőszám és rögzítési mód kiválasztása esetén egyetlen „négyzetes” mátrixnak felel meg. Azonban minden „négyzetes” mátrix sok „téglalap alakú” mátrixnak felelhet meg. Az elemzés minden lépése után minden előző „négyzetes” mátrix megfelel a következőnek, de a következő alapján nem tudtuk visszaállítani az előzőt. Ez azt jelenti, hogy a klaszteranalízis minden lépésében az eredeti objektumkészlet sokféleségére vonatkozó információ egy része visszafordíthatatlanul elveszik.

Ez a körülmény a klaszteranalízis egyik komoly hátránya.

A klaszterelemzés másik alattomos hiányosságáról is szó esik a cikkben

© imht.ru, 2022
Üzleti folyamatok. Beruházások. Motiváció. Tervezés. Végrehajtás