Баригдсан загварт үндэслэн кластерийн шинжилгээний ангилал. Microsoft Excel программ дээр кластер шинжилгээний хэрэглээ. Дата олборлолтын аргаар шийдэгдсэн ажлууд

30.03.2020

Эдийн засгийн асуудлыг шийдвэрлэх арга хэрэгслийн нэг бол кластерийн шинжилгээ юм. Үүний тусламжтайгаар кластерууд болон өгөгдлийн массивын бусад объектуудыг бүлэгт ангилдаг. Энэ техникийг ашиглах боломжтой Excel програм. Үүнийг практикт хэрхэн яаж хийхийг харцгаая.

Кластер шинжилгээний тусламжтайгаар судалж буй шинж чанарын дагуу дээж авах боломжтой. Үүний гол ажил бол олон хэмжээст массивыг нэгэн төрлийн бүлгүүдэд хуваах явдал юм. Бүлэглэх шалгуурын хувьд хосолсон корреляцийн коэффициент буюу өгөгдсөн параметрийн дагуу объектуудын хоорондох Евклидийн зайг ашигладаг. Бие биендээ хамгийн ойр байгаа утгуудыг бүлэглэв.

Хэдийгээр ихэнхдээ энэ төрөлшинжилгээг эдийн засагт ашигладаг бөгөөд үүнийг биологи (амьтдыг ангилах), сэтгэл судлал, анагаах ухаан, хүний ​​​​үйл ажиллагааны бусад олон салбарт ашиглаж болно. Эдгээр зорилгоор кластерийн шинжилгээг ашиглаж болно стандарт багц Excel хэрэгслүүд.

Хэрэглээний жишээ

Бидэнд хоёр судлагдсан параметрээр тодорхойлогддог таван объект байна - хболон y.

кластерийн шинжилгээ

Ихэнх судлаачид "кластер шинжилгээ" гэсэн нэр томъёог анх удаа ашигласан гэдэгт итгэх хандлагатай байдаг (Eng. бөөгнөрөл- баглаа, бөөгнөрөл, баглаа) математикч Р.Трион санал болгосон. Дараа нь "кластерийн шинжилгээ" гэсэн нэр томъёотой ижил утгатай гэж үздэг хэд хэдэн нэр томъёо гарч ирэв: автомат ангилал; ботриологи.

Кластерын шинжилгээ нь объектын түүврийн талаарх мэдээллийг агуулсан өгөгдлийг цуглуулж, дараа нь объектуудыг харьцангуй нэгэн төрлийн бүлгүүд (кластер) болгон зохион байгуулдаг олон талт статистикийн процедур юм (Q-clustering, эсвэл Q-техник, зөв ​​кластерийн шинжилгээ). Кластер - нийтлэг шинж чанараар тодорхойлогддог элементүүдийн бүлэг, кластерийн шинжилгээний гол зорилго нь түүвэр дэх ижил төстэй объектуудын бүлгийг олох явдал юм. Кластер шинжилгээний хэрэглээний хүрээ маш өргөн: үүнийг археологи, анагаах ухаан, сэтгэл судлал, хими, биологи, төрийн удирдлага, филологи, антропологи, маркетинг, социологи болон бусад салбаруудад ашигладаг. Гэсэн хэдий ч хэрэглээний түгээмэл байдал нь кластерийн шинжилгээг хоёрдмол утгагүй ашиглах, тууштай тайлбарлахад хүндрэл учруулдаг олон тооны үл нийцэх нэр томьёо, арга, хандлагыг бий болгоход хүргэсэн. Орлов А.И. дараахь байдлаар ялгахыг санал болгож байна.

Даалгавар ба нөхцөл

Кластер шинжилгээ нь дараахь зүйлийг гүйцэтгэдэг үндсэн ажлууд:

  • Типологи эсвэл ангилал боловсруулах.
  • Объектуудыг бүлэглэх ашигтай концепцийн схемүүдийг судлах.
  • Өгөгдлийн судалгаанд үндэслэн таамаглал үүсгэх.
  • Боломжит өгөгдөлд аль нэг байдлаар тодорхойлогдсон төрлүүд (бүлэгүүд) үнэхээр байгаа эсэхийг тодорхойлохын тулд таамаглах туршилт эсвэл судалгаа.

Судалгааны сэдвээс үл хамааран кластер шинжилгээний хэрэглээ орно Дараагийн алхмууд:

  • Кластер хийх дээж авах. Зөвхөн тоон өгөгдлийг кластерлах нь утга учиртай гэж ойлгож байна.
  • Түүвэр дэх объектуудыг үнэлэх хувьсагчдын багцын тодорхойлолт, өөрөөр хэлбэл функцийн орон зай.
  • Объектуудын ижил төстэй (эсвэл ялгаа) нэг буюу өөр хэмжүүрийн утгыг тооцоолох.
  • Ижил төстэй объектуудын бүлгийг бий болгохын тулд кластер шинжилгээний аргыг ашиглах.
  • Кластер шийдлийн үр дүнг баталгаажуулах.

Кластер шинжилгээ нь дараахь зүйлийг харуулж байна өгөгдлийн шаардлага:

  1. үзүүлэлтүүд хоорондоо уялдаа холбоотой байх ёсгүй;
  2. үзүүлэлтүүд нь хэмжилтийн онолтой зөрчилдөх ёсгүй;
  3. үзүүлэлтүүдийн тархалт хэвийн хэмжээнд ойр байх ёстой;
  4. үзүүлэлтүүд нь "тогтвортой байдлын" шаардлагыг хангасан байх ёстой бөгөөд энэ нь санамсаргүй хүчин зүйлсийн үнэ цэнэд нөлөөлөхгүй гэсэн үг юм;
  5. дээж нь нэгэн төрлийн байх ёстой бөгөөд "гадаад" байх ёсгүй.

Өгөгдлийн нэгдмэл байдал, бүрэн бүтэн байдал гэсэн хоёр үндсэн шаардлагын тайлбарыг та олж болно.

Нэг төрлийн байдал нь хүснэгтэд дүрслэгдсэн бүх объектууд ижил шинж чанартай байхыг шаарддаг. Бүрэн байх шаардлага нь иж бүрдэл юм Iболон Жавч үзэж буй үзэгдлийн илрэлийн бүрэн тайлбарыг танилцуулав. Хэрэв бид ямар хүснэгтийг авч үзвэл Iцуглуулга бөгөөд Ж- энэ популяцийг тодорхойлсон хувьсагчдын багц, дараа нь энэ нь судлагдсан популяцийн төлөөллийн түүвэр байх ёстой бөгөөд шинж чанарын систем Жхувь хүмүүсийн хангалттай вектор дүрслэлийг өгөх ёстой бисудлаачийн байр сууринаас.

Хэрэв кластерийн шинжилгээг хүчин зүйлийн шинжилгээ хийхээс өмнө хийсэн бол түүврийг "засварлах" шаардлагагүй - заасан шаардлагыг хүчин зүйлийн загварчлалын процедур өөрөө автоматаар гүйцэтгэдэг (бас нэг давуу тал бий - түүвэрт сөрөг үр дагаваргүйгээр z-стандартчилал; Хэрэв энэ нь кластерийн шинжилгээнд шууд хийгдсэн бол бүлгүүдийг салгах тодорхой байдал буурахад хүргэж болно). Үгүй бол дээжийг тохируулах шаардлагатай.

Кластерын асуудлын төрөл

Оролтын төрлүүд

AT орчин үеийн шинжлэх ухаанОролтын өгөгдлийг боловсруулах хэд хэдэн алгоритмыг ашигладаг. Онцлог шинж чанарт тулгуурлан объектуудыг харьцуулах шинжилгээг (биологийн шинжлэх ухаанд хамгийн түгээмэл) гэж нэрлэдэг Q- шинжилгээний төрөл, шинж чанарын хувьд харьцуулах тохиолдолд объектын үндсэн дээр - Р- шинжилгээний төрөл. Шинжилгээний эрлийз хэлбэрийг ашиглах оролдлого байдаг (жишээлбэл, RQшинжилгээ), гэхдээ энэ арга зүйг хараахан зохих ёсоор боловсруулаагүй байна.

Кластер хийх зорилго

  • Кластерийн бүтцийг тодорхойлох замаар өгөгдлийг ойлгох. Түүврийг ижил төстэй объектуудын бүлгүүдэд хуваах нь кластер бүрт өөрийн шинжилгээний аргыг ("хувааж, ялах" стратеги) ашиглан цаашдын өгөгдөл боловсруулах, шийдвэр гаргах үйл явцыг хялбаршуулах боломжтой болгодог.
  • Өгөгдлийн шахалт. Хэрэв анхны түүврийн хэмжээ хэт том бол түүнийг багасгаж, кластер бүрээс хамгийн ердийн төлөөлөгчдийн нэгийг үлдээж болно.
  • шинэлэг зүйл илрүүлэх. шинэлэг зүйл илрүүлэх). Аль ч кластерт хавсаргах боломжгүй ердийн бус объектуудыг сонгосон.

Эхний тохиолдолд тэд кластерын тоог багасгахыг хичээдэг. Хоёр дахь тохиолдолд, кластер бүрийн доторх объектуудын ижил төстэй байдлыг хангах нь илүү чухал бөгөөд олон тооны кластер байж болно. Гурав дахь тохиолдолд аль ч кластерт тохирохгүй бие даасан объектууд хамгийн их сонирхол татдаг.

Эдгээр бүх тохиолдолд шаталсан кластерчлалыг том кластеруудыг жижиг хэсгүүдэд хуваах үед хэрэглэж болно, энэ нь эргээд бүр бага хэмжээгээр хуваагддаг гэх мэт. Ийм даалгаврыг ангиллын даалгавар гэж нэрлэдэг. Ангилал судлалын үр дүн нь мод шиг шаталсан бүтэц юм. Нэмж дурдахад объект бүр нь ихэвчлэн томоос жижиг хүртэл хамаарах бүх кластеруудын тооллогоор тодорхойлогддог.

Кластер хийх аргууд

Кластерын аргын нийтээр хүлээн зөвшөөрөгдсөн ангилал байдаггүй ч В.С.Бериков, Г.С.Лбов нарын хатуу оролдлогыг тэмдэглэж болно. Нэгтгэн дүгнэхэд янз бүрийн ангилалкластерын аргуудын хувьд хэд хэдэн бүлгийг ялгаж салгаж болно (зарим аргуудыг нэг дор хэд хэдэн бүлэгт хамааруулж болох тул энэ ангиллыг кластерын аргуудын бодит ангилалд ойртуулах гэж үзэхийг санал болгож байна):

  1. Магадлалын хандлага. Харж буй объект бүр нь k ангиллын аль нэгэнд хамаарна гэж үздэг. Зарим зохиогчид (жишээлбэл, A. I. Orlov) энэ бүлэг нь кластерт огт хамааралгүй гэж үздэг бөгөөд үүнийг "ялгаварлан гадуурхах" нэрээр эсэргүүцдэг, өөрөөр хэлбэл, мэдэгдэж буй бүлгүүдийн аль нэгэнд объект хуваарилах сонголт (сургалтын дээж).
  2. Хиймэл оюун ухааны системд суурилсан аргууд. Маш болзолт бүлэг, учир нь AI-ийн олон аргууд байдаг бөгөөд арга зүйн хувьд тэд маш өөр байдаг.
  3. логик хандлага. Дендрограмм барих ажлыг шийдвэрийн мод ашиглан гүйцэтгэдэг.
  4. График-онолын хандлага.
    • График кластер хийх алгоритмууд
  5. Шаталсан арга. Үүрлэсэн бүлгүүд (өөр өөр эрэмбийн кластерууд) байгаа гэж үздэг. Алгоритмууд нь эргээд бөөгнөрөх (нэгдүүлэх) болон хуваах (салгах) гэж хуваагддаг. Онцлог шинж чанаруудын тоогоор заримдаа монотетик ба политетик ангиллын аргуудыг ялгадаг.
    • Шаталсан хуваах кластер буюу ангилал зүй. Кластерын асуудлыг тоон ангилал зүйд авч үздэг.
  6. Бусад аргууд. Өмнөх бүлгүүдэд ороогүй.
    • Статистикийн кластерийн алгоритмууд
    • Кластеруудын чуулга
    • KRAB гэр бүлийн алгоритмууд
    • Шигших аргад суурилсан алгоритм
    • DBSCAN гэх мэт.

4 ба 5-р хандлагыг заримдаа бүтцийн эсвэл геометрийн арга гэсэн нэрийн дор нэгтгэдэг бөгөөд энэ нь ойрын тухай илүү албан ёсны ойлголттой байдаг. Жагсаалтад орсон аргуудын хооронд мэдэгдэхүйц ялгаа байгаа хэдий ч тэд бүгд эх хувилбарт тулгуурладаг " нягтралын таамаглал»: объектын орон зайд бүх ойр объектууд нэг кластерт хамаарах ёстой бөгөөд бүх өөр өөр объектууд нь өөр өөр кластерт байх ёстой.

Кластерийн асуудлын албан ёсны мэдэгдэл

Объектуудын багц, кластеруудын тоо (нэр, шошго) болъё. Объект хоорондын зайны функцийг өгсөн болно. Хязгаарлагдмал сургалтын багц объектууд байдаг. Дээжийг давхцаагүй дэд олонлогт хуваах шаардлагатай кластерууд, ингэснээр кластер бүр нь хэмжигдэхүүнтэй ойролцоо объектуудаас бүрдэх ба өөр өөр кластерын объектууд мэдэгдэхүйц ялгаатай байна. Энэ тохиолдолд объект бүрт кластерын дугаар өгөгддөг.

Кластер хийх алгоритмнь аливаа объектыг кластерын дугаартай холбодог функц юм. Зарим тохиолдолд багцыг урьдчилан мэддэг боловч ихэнхдээ нэг юм уу өөр өнцгөөс нь кластерын оновчтой тоог тодорхойлох даалгавар байдаг. чанарын шалгуурбөөгнөрөл.

Кластер хийх (хяналтгүй суралцах) нь ангиллаас (хяналттай суралцах) ялгаатай бөгөөд анхны объектуудын шошго нь тогтоогдоогүй бөгөөд багц нь өөрөө ч тодорхойгүй байж болно.

Кластерийн асуудлын шийдэл нь үндсэндээ хоёрдмол утгатай бөгөөд үүнд хэд хэдэн шалтгаан бий (хэд хэдэн зохиогчдын үзэж байгаагаар):

  • кластерын чанарын хувьд онцгой сайн шалгуур байдаггүй. Хэд хэдэн эвристик шалгуурууд, түүнчлэн тодорхой тодорхойлогдсон шалгуургүй боловч "барилгын дагуу" нэлээд үндэслэлтэй кластер хийдэг хэд хэдэн алгоритмууд мэдэгдэж байна. Бүгд л өгч болно өөр үр дүн. Тиймээс кластерын чанарыг тодорхойлохын тулд кластерын сонголтын ач холбогдлыг үнэлж чадах тухайн чиглэлээр мэргэшсэн мэргэжилтэн шаардлагатай.
  • кластерын тоо нь ихэвчлэн урьдчилан мэдэгддэггүй бөгөөд зарим субъектив шалгуурын дагуу тогтоогддог. Энэ нь зөвхөн ялгаварлан гадуурхах аргуудын хувьд үнэн юм, учир нь кластерын аргад кластеруудыг ойрын хэмжигдэхүүн дээр суурилсан албан ёсны аргыг ашиглан сонгодог.
  • кластерын үр дүн нь хэмжүүрээс ихээхэн хамаардаг бөгөөд тэдгээрийн сонголт нь дүрмээр бол субъектив бөгөөд шинжээчээр тодорхойлогддог. Гэхдээ янз бүрийн ажилд ойртох арга хэмжээг сонгох хэд хэдэн зөвлөмж байдаг гэдгийг тэмдэглэх нь зүйтэй.

Өргөдөл

Биологийн чиглэлээр

Биологийн хувьд бөөгнөрөл нь олон төрлийн салбарт олон хэрэглээтэй байдаг. Жишээлбэл, биоинформатикийн хувьд энэ нь заримдаа хэдэн зуун, бүр хэдэн мянган элементээс бүрдэх харилцан үйлчлэлийн генүүдийн нарийн төвөгтэй сүлжээг шинжлэхэд хэрэглэгддэг. Кластерийн шинжилгээ нь судалж буй системийн дэд сүлжээ, түгжрэл, зангилаа болон бусад далд шинж чанаруудыг тодорхойлох боломжийг олгодог бөгөөд энэ нь ген бүрийн судалж буй үзэгдлийг бий болгоход оруулсан хувь нэмрийг олж мэдэх боломжийг олгодог.

Экологийн салбарт энэ нь орон зайн хувьд нэгэн төрлийн организм, бүлгэмдэл гэх мэт бүлгүүдийг тодорхойлоход өргөн хэрэглэгддэг. Цөөн тохиолдолд кластер шинжилгээний аргыг цаг хугацааны явцад бүлгүүдийг судлахад ашигладаг. Нөхөрлөлийн бүтцийн нэг төрлийн бус байдал нь кластерийн шинжилгээний энгийн бус аргууд (жишээлбэл, Чекановскийн арга) үүсэхэд хүргэдэг.

Ерөнхийдөө биологийн хувьд ижил төстэй байдлын хэмжүүрийг ялгаа (зай) хэмжүүр гэхээсээ илүү ойрын хэмжүүр болгон ашигладаг болохыг тэмдэглэх нь зүйтэй.

Социологид

Социологийн судалгааны үр дүнд дүн шинжилгээ хийхдээ шаталсан бөөгнөрөл гэр бүлийн аргууд, тухайлбал Тойргийн аргыг ашиглан дүн шинжилгээ хийхийг зөвлөж байна, үүнд кластер доторх хамгийн бага тархалтыг оновчтой болгож, үр дүнд нь ойролцоогоор тэнцүү хэмжээтэй кластерууд бий болно. бий болсон. Уордын арга нь социологийн өгөгдөлд дүн шинжилгээ хийхэд хамгийн амжилттай арга юм. Ялгааны хэмжүүрийн хувьд квадрат Евклидийн зай нь илүү сайн байдаг бөгөөд энэ нь кластеруудын тодосгогчийг нэмэгдүүлэхэд хувь нэмэр оруулдаг. Шаталсан кластерын шинжилгээний гол үр дүн нь дендрограмм буюу "мөстлөгийн диаграмм" юм. Үүнийг тайлбарлахдаа судлаачид хүчин зүйлийн шинжилгээний үр дүнг тайлбарлахтай ижил төрлийн асуудалтай тулгардаг - кластеруудыг тодорхойлох хоёрдмол утгагүй шалгуур байхгүй байна. Гол арга болгон хоёр аргыг ашиглахыг зөвлөж байна - дендрограммыг нүдээр шинжлэх, өөр өөр аргаар гүйцэтгэсэн кластерын үр дүнг харьцуулах.

Дендрограммын харааны шинжилгээ нь дээжийн элементүүдийн ижил төстэй байдлын оновчтой түвшинд модыг "тайрах" явдал юм. "Усан үзмийн модны мөчир" (Oldenderfer M.S. болон Blashfield R.K. нарын нэр томъёо) нь Rescaled Distance Cluster Combine масштабын 5 орчимд "таслагдсан" бөгөөд ингэснээр 80% ижил төстэй түвшинд хүрнэ. Хэрэв энэ шошгоор кластер сонгоход хэцүү байвал (хэд хэдэн жижиг кластерууд нэг томд нийлдэг) өөр шошго сонгож болно. Энэ аргыг Олендерфер, Блэшфилд нар санал болгосон.

Одоо батлагдсан кластерийн шийдлийн тогтвортой байдлын тухай асуулт гарч ирж байна. Үнэн хэрэгтээ кластерын тогтвортой байдлыг шалгах нь түүний найдвартай байдлыг шалгах явдал юм. Энд нэг дүрэм байдаг - кластерын аргууд өөрчлөгдөх үед тогтвортой хэв шинж хадгалагдана. Шаталсан кластерын шинжилгээний үр дүнг давталтын k-means кластерийн шинжилгээгээр баталгаажуулж болно. Судалгаанд оролцогчдын бүлгүүдийн харьцуулсан ангилалд 70% -иас дээш давхцлын хувь (давхцлын 2/3-аас дээш) байвал кластерийн шийдвэр гаргана.

Өөр төрлийн шинжилгээ хийхгүйгээр уусмалын хүрэлцээг шалгах боломжгүй юм. Наад зах нь онолын хувьд энэ асуудал шийдэгдээгүй байна. Олдендерфер ба Блэшфилдийн сонгодог кластерийн шинжилгээ нь бат бөх байдлын туршилтын таван нэмэлт аргыг нарийвчлан боловсруулж, эцэст нь үгүйсгэдэг.

Компьютерийн шинжлэх ухаанд

  • Хайлтын үр дүнгийн бүлэглэл - файл, вэб сайт, бусад объектыг хайж байхдаа үр дүнг "ухаалаг" бүлэглэхэд ашигладаг бөгөөд энэ нь хэрэглэгчдэд хурдан шилжих, илүү хамааралтай бөгөөд хамаарал багатай хэсгийг хасах боломжийг олгодог. Интерфэйсийг ашиглахад хялбар байдал нь хамаарлын жагсаалтаар эрэмблэгдсэн энгийн хэлбэрийн гаралттай харьцуулахад .
    • Clusty - Vivísimo-ийн кластер хайлтын систем
    • Нигма - автомат үр дүнгийн кластер бүхий Оросын хайлтын систем
    • Квинтура - түлхүүр үгсийн үүл хэлбэрээр харааны бөөгнөрөл
  • Зургийн сегментчилэл зургийн сегментчилэл) - Ирмэгийг илрүүлэх зорилгоор дижитал дүрсийг салангид бүс болгон хуваахад кластер хийх боломжтой. ирмэг илрүүлэх) эсвэл объектыг таних.
  • Өгөгдлийн олборлолт өгөгдөл олборлолт)- Өгөгдөл олборлолтод кластер хийх нь өгөгдөлд дүн шинжилгээ хийх, иж бүрэн мэдээллийг бий болгох үе шатуудын нэг болж ажиллах үед үнэ цэнэтэй болно. аналитик шийдэл. Шинжээч бүх өгөгдлийн нэг ерөнхий загвар үүсгэхээс илүү ижил төстэй объектуудын бүлгийг тодорхойлж, тэдгээрийн онцлогийг судалж, бүлэг тус бүрт тусдаа загвар гаргах нь ихэвчлэн хялбар байдаг. Энэхүү техникийг маркетингийн ажилд байнга ашигладаг бөгөөд үйлчлүүлэгчид, худалдан авагчид, бараа бүтээгдэхүүний бүлгийг тодруулж, тус бүрдээ тусдаа стратеги боловсруулдаг.

бас үзнэ үү

Тэмдэглэл

Холбоосууд

Орос хэл дээр
  • www.MachineLearning.ru - машин сурах, өгөгдөл олборлоход зориулагдсан мэргэжлийн вики эх сурвалж
Англи хэлэнд
  • COMPACT - Кластерын үнэлгээний харьцуулсан багц. Үнэгүй Matlab багц, 2006.
  • П.Бэрхин, Өгөгдөл олборлолтын кластерийн аргачлалын судалгаа, Аккруе Програм хангамж, 2002.
  • Жейн, Мурти, Флинн нар: Өгөгдлийн кластер: тойм, ACM Comp. Сурв., 1999.
  • Шатлал, k-дундлагууд болон бүдэг в-хэрэглээний өөр нэг танилцуулгыг кластерчлалын энэхүү танилцуулгыг үзнэ үү. Мөн Гауссын хольцын талаархи тайлбартай.
  • Дэвид Доу, Холимог загварчлах хуудас- бусад кластер болон холимог загварын холбоосууд.
  • кластер хийх заавар
  • Онлайн сурах бичиг: Мэдээллийн онол, дүгнэлт, сургалтын алгоритм, Дэвид Ж. МакКэй нь k-тэмдэглэгээний бөөгнөрөл, зөөлөн k-дунжааны бөөгнөрөл, гарал үүслийн тухай бүлгүүдийг агуулдаг. E-Mалгоритм ба E-M алгоритмын вариацын харагдац.
  • Өрсөлдөөнт суралцах, өөрөө зохион байгуулах газрын зураг ашиглан кластер байгуулахыг тайлбарласан "Өөрийгөө зохион байгуулсан ген" заавар.
  • kernlab - Цөмд суурилсан машин сургалтын R багц (спектр кластерын хэрэгжилтийг багтаасан)
  • Заавар - Кластер хийх алгоритмын танилцуулга бүхий заавар (k-дундаж, тодорхойгүй-c-дундууд, шаталсан, гауссын холимог) + зарим интерактив үзүүлэнгүүд (java апплетууд)
  • Өгөгдөл олборлох программ хангамж - Өгөгдөл олборлох программ хангамж нь кластер хийх арга техникийг байнга ашигладаг.
  • Java Competitve Learning Application Кластерт зориулсан хяналтгүй мэдрэлийн сүлжээнүүдийн багц. Java хэл дээр бичигдсэн. Бүх эх кодыг бөглөнө үү.
  • Машин сургалтын програм хангамж - Мөн кластер хийх олон програм хангамжийг агуулдаг.

Статистикт кластер шинжилгээний үндсэн хоёр төрөл байдаг (хоёуланг нь SPSS-д төлөөлдөг): шаталсан ба k-means. Эхний тохиолдолд автоматжуулсан статистикийн процедур нь кластерын оновчтой тоо болон кластер хийхэд шаардлагатай бусад хэд хэдэн параметрүүдийг бие даан тодорхойлдог.

шинжилгээ. Хоёрдахь төрлийн дүн шинжилгээ нь практикт хэрэглэхэд ихээхэн хязгаарлалттай байдаг - үүний тулд хуваарилагдсан кластеруудын яг тоо, кластер бүрийн төвүүдийн анхны утгууд (центроидууд) болон бусад зарим статистикийг бие даан тодорхойлох шаардлагатай. k-орлогын аргаар дүн шинжилгээ хийхдээ эдгээр асуудлыг шаталсан кластерийн шинжилгээг урьдчилан хийж, дараа нь түүний үр дүнд үндэслэн кластерийн загварыг k-means аргыг ашиглан тооцоолох замаар шийддэг бөгөөд энэ нь ихэнх тохиолдолд хялбаршуулдаггүй, гэхдээ. , эсрэгээрээ, судлаачийн ажлыг (ялангуяа бэлтгэлгүй) хүндрүүлдэг.

Ерөнхийдөө шаталсан кластерийн шинжилгээ нь компьютерийн техник хангамжийн нөөцөд маш их шаарддаг тул олон мянган ажиглалтаас (харилцагчаас) бүрдсэн маш том өгөгдлийн багцыг боловсруулахын тулд k-means кластерийн шинжилгээг SPSS-д нэвтрүүлсэн гэж бид хэлж чадна. компьютерийн тоног төхөөрөмжийн хүчин чадал хангалтгүй1. Маркетингийн судалгаанд ашигладаг түүврийн хэмжээ ихэнх тохиолдолд дөрвөн мянгаас хэтрэхгүй. Маркетингийн судалгааны практик нь энэ нь кластерийн шинжилгээний эхний төрөл болох шаталсан шинж чанартай бөгөөд бүх тохиолдолд хамгийн хамааралтай, бүх нийтийн, үнэн зөвийг ашиглахыг зөвлөдөг болохыг харуулж байна. Үүний зэрэгцээ кластерийн шинжилгээ хийхдээ холбогдох хувьсагчдыг сонгох нь чухал гэдгийг онцлон тэмдэглэх нь зүйтэй. Шинжилгээнд хэд хэдэн эсвэл бүр нэг хамааралгүй хувьсагчийг оруулах нь статистикийн бүх процедурыг бүтэлгүйтэхэд хүргэж болзошгүй тул энэ тайлбар нь маш чухал юм.

Бид маркетингийн судалгааны дадлагаас дараах жишээн дээр кластер шинжилгээ хийх аргачлалыг тайлбарлах болно.

Анхны өгөгдөл:

Судалгааны явцад Орос, гадаадын 22 авиа компанийн аль нэгтэй нь нислэг үйлдэж байсан 745 агаарын зорчигчтой ярилцлага хийсэн байна. Нислэгийн зорчигчдоос 1 (маш муу)-аас 5 (маш сайн) хүртэлх таван онооны системээр агаарын тээврийн газрын ажилтнуудыг бүртгүүлэх явцад эелдэг байдал, мэргэжлийн ур чадвар, шуурхай байдал, туслахад бэлэн байх, дарааллын менежмент, гадаад төрх байдал, ерөнхийдөө ажлын ажилтнууд.

Шаардлагатай:

Судалгаанд хамрагдсан агаарын тээврийн компаниудыг агаарын тээврийн зорчигчдод хүлээн зөвшөөрсөн газрын ажилтнуудын ажлын чанарын түвшингээр нь ангил.

Тиймээс бид янз бүрийн агаарын тээврийн компаниудын газрын ажилтнуудын гүйцэтгэлийн үнэлгээг (ql3-ql9) илэрхийлсэн долоон интервалын хувьсагчаас бүрдэх өгөгдлийн файлтай бөгөөд нэг таван онооны масштабаар танилцуулсан. Өгөгдлийн файл нь санал асуулгад оролцогчдын сонгосон агаарын тээврийн компаниудыг (нийт 22) харуулсан ганц хувьсагч q4 агуулдаг. Кластер шинжилгээ хийж, агаарын тээврийн мэдээллийг аль зорилтот бүлэгт хувааж болохыг тодорхойлъё.

Шаталсан кластерын шинжилгээг хоёр үе шаттайгаар явуулдаг. Эхний шатны үр дүн нь судалгаанд хамрагдагсдын түүврийг хуваах ёстой кластеруудын тоо (зорилтот сегментүүд) юм. Кластер шинжилгээний журам нь тийм биш юм

кластерын оновчтой тоог бие даан тодорхойлох боломжтой. Тэр зөвхөн хүссэн дугаарыг санал болгож чадна. тодорхойлох үүрэг оноос хойш оновчтой тоосегментүүд нь гол зүйл бөгөөд үүнийг ихэвчлэн шинжилгээний тусдаа үе шатанд шийддэг. Хоёр дахь шатанд ажиглалтын бодит кластерийг шинжилгээний эхний үе шатанд тодорхойлсон кластеруудын тоогоор гүйцэтгэдэг. Одоо эдгээр кластер шинжилгээний алхмуудыг дарааллаар нь харцгаая.

Кластерын шинжилгээний процедурыг Analyze > Classify > Ierarchical Cluster цэсийг ашиглан эхлүүлнэ. Нээгдэх харилцах цонхноос өгөгдлийн файлд байгаа бүх хувьсагчийн зүүн талын жагсаалтаас сегментчлэлийн шалгуур болох хувьсагчдыг сонгоно уу. Манай тохиолдолд тэдгээрийн долоо нь байдаг бөгөөд тэдгээр нь газрын ажилтнуудын ажлын параметрүүдийн тооцооллыг илэрхийлдэг ql3-ql9 (Зураг 5.44). Зарчмын хувьд, сегментчилсэн шалгуурыг тодорхойлох нь кластерийн шинжилгээний эхний үе шатыг хийхэд хангалттай байх болно.

Цагаан будаа. 5.44.

Анхдагч байдлаар, кластер үүсэх үр дүнгийн хүснэгтээс гадна бид тэдгээрийн оновчтой тоог тодорхойлох болно, SPSS нь тусгай урвуу гистограмын мөсөн бүрхүүлийг харуулдаг бөгөөд энэ нь програмыг бүтээгчдийн зорилгын дагуу юм. , кластерын оновчтой тоог тодорхойлоход тусалдаг; Диаграммуудыг Plots товчийг ашиглан харуулав (Зураг 5.45). Гэсэн хэдий ч, хэрэв бид энэ сонголтыг орхивол харьцангуй жижиг өгөгдлийн файлыг боловсруулахад маш их цаг зарцуулах болно. Plots цонхноос мөстлөгөөс гадна илүү хурдан Dendogram баганан диаграммыг сонгож болно. Энэ нь кластер үүсэх үйл явцыг тусгасан хэвтээ баар юм. Онолын хувьд цөөн тооны (50-100 хүртэл) судалгаанд хамрагдагсдын тоогоор энэ диаграм нь шаардлагатай тооны кластерын оновчтой шийдлийг сонгоход үнэхээр тусалдаг. Гэсэн хэдий ч маркетингийн судалгааны бараг бүх жишээн дээр түүврийн хэмжээ энэ утгаас давсан байна. Харьцангуй цөөн тооны ажиглалт хийсэн ч гэсэн хэвтээ ба босоо шугамаар холбогдсон анхны өгөгдлийн файлын мөрийн дугааруудын маш урт дараалал байдаг тул дендограм нь бүрэн ашиггүй болно. Ихэнх SPSS сурах бичигт яг ийм хиймэл, жижиг дээж дээр кластер шинжилгээний жишээнүүд байдаг. Энэхүү зааварт бид SPSS-ийг практик орчинд хэрхэн хамгийн их ашиг хүртэх талаар болон зах зээлийн судалгааны бодит жишээнүүдийг харуулах болно.

Цагаан будаа. 5.45.

Бидний тогтоосноор Icicle болон Dendogram нь практик зорилгоор тохирохгүй. Тиймээс, шаталсан кластерийн шинжилгээний үндсэн харилцах цонхонд, Зураг дээр үзүүлсэн шиг Display хэсэгт анхдагч Plots сонголтыг цуцлах замаар диаграммуудыг харуулахгүй байхыг зөвлөж байна. 5.44. Одоо кластерийн шинжилгээний эхний шатыг хийхэд бүх зүйл бэлэн боллоо. OK товчийг дарж процедурыг эхлүүлнэ үү.

Хэсэг хугацааны дараа үр дүн нь SPSS Viewer цонхонд гарч ирнэ. Дээр дурдсанчлан, бидний хувьд чухал ач холбогдолтой шинжилгээний эхний шатны цорын ганц үр дүн нь Зураг дээр үзүүлсэн дундаж холболтын (бүлэг хоорондын) хүснэгт байх болно. 5.46. Энэ хүснэгтэд үндэслэн бид кластеруудын оновчтой тоог тодорхойлох ёстой. Кластерын оновчтой тоог тодорхойлох цорын ганц бүх нийтийн арга байхгүй гэдгийг тэмдэглэх нь зүйтэй. Аль ч тохиолдолд судлаач энэ тоог өөрөө тодорхойлох ёстой.

Туршлагад үндэслэн зохиогч энэ үйл явцын дараах схемийг санал болгож байна. Юуны өмнө кластерын тоог тодорхойлох хамгийн түгээмэл стандарт аргыг хэрэглэхийг хичээцгээе. Дундаж холболтын (бүлэг хоорондын) хүснэгтийг ашиглан бөөгнөрөл үүсэх үйл явцын аль үе шатанд (баганын үе шат) бөөгнөрөлийн коэффициентийн анхны харьцангуй том үсрэлт (баганын коэффициент) гарч ирснийг тодорхойлох шаардлагатай. Энэ үсрэлт нь үүнээс өмнө бие биенээсээ хангалттай бага зайд байсан ажиглалтуудыг кластер болгон нэгтгэсэн гэсэн үг юм (манай тохиолдолд дүн шинжилгээ хийсэн параметрүүдийн хувьд ижил түвшний үнэлгээтэй судалгаанд оролцогчид), энэ үе шатнаас эхлэн илүү алсын ажиглалтууд. нэгтгэсэн байна.

Манай тохиолдолд коэффициентүүд 0-ээс 7.452 хүртэл жигд нэмэгддэг, өөрөөр хэлбэл 1-ээс 728 хүртэлх алхмуудын коэффициентүүдийн хоорондын ялгаа бага байсан (жишээлбэл, 728-аас 727-ийн хооронд - 0.534). 729-р алхамаас эхлэн коэффициентийн анхны мэдэгдэхүйц үсрэлт 7.452-аас 10.364 хүртэл (2.912-оор) явагдана. Коэффициент анх удаа үсрэх үе шат нь 729. Одоо кластерын оновчтой тоог тодорхойлохын тулд нийт ажиглалтын тооноос (түүврийн хэмжээ) олж авсан утгыг хасах шаардлагатай. Манай тохиолдолд түүврийн нийт хэмжээ 745 хүн байна; тиймээс кластерын оновчтой тоо нь 745-729 = 16 байна.


Цагаан будаа. 5.46.

Бид нэлээд олон тооны кластер авсан бөгөөд үүнийг ирээдүйд тайлбарлахад хэцүү байх болно. Тиймээс одоо олж авсан кластеруудыг судалж, тэдгээрийн аль нь чухал болохыг тодорхойлох, аль нь багасгахыг хичээх шаардлагатай байна. Энэ асуудлыг кластерийн шинжилгээний хоёр дахь шатанд шийддэг.

Кластерын шинжилгээний процедурын үндсэн харилцах цонхыг нээнэ үү (Шинжилгээ хийх > Ангилах > Шаталсан кластер цэс). Шинжилсэн хувьсагчийн талбарт бид аль хэдийн долоон параметртэй байна. Хадгалах товчийг дарна уу. Нээгдэх харилцах цонх (Зураг 5.47) нь хариулагчдыг зорилтот бүлгүүдэд хуваарилдаг эх өгөгдлийн файлд шинэ хувьсагч үүсгэх боломжийг олгоно. Нэг шийдэл сонголтыг сонгоод, тохирох талбарт шаардлагатай кластерын тоог зааж өгнө үү - 16 (кластерын шинжилгээний эхний шатанд тодорхойлогддог). Үргэлжлүүлэх товчийг дарснаар үндсэн харилцах цонх руу буцах ба OK товчийг дарж кластерын шинжилгээний процедурыг эхлүүлэх боломжтой.

Кластер шинжилгээний үйл явцын тайлбарыг үргэлжлүүлэхийн өмнө танилцуулах шаардлагатай Товч тодорхойлолтбусад сонголтууд. Тэдгээрийн дотор ашигтай шинж чанарууд байдаг бөгөөд үнэндээ илүүдэхгүй (практик маркетингийн судалгааны үүднээс). Жишээлбэл, Шаталсан кластерийн шинжилгээний үндсэн харилцах цонхонд Тохиолдлуудын шошго талбарыг агуулж байгаа бөгөөд үүнд та хариулагчдыг тодорхойлох текст хувьсагчийг сонголтоор байрлуулж болно. Манай тохиолдолд судалгаанд оролцогчдын сонгосон агаарын тээврийн компаниудыг кодлодог q4 хувьсагч эдгээр зорилгод үйлчлэх боломжтой. Практикт шошгоны тохиолдлуудыг талбараар нь ашиглах оновчтой тайлбарыг олоход хэцүү байдаг тул та үүнийг үргэлж хоосон орхиж болно.

Цагаан будаа. 5.47.

Кластерын шинжилгээ хийхдээ үндсэн харилцах цонхны ижил нэртэй товчлуураар дуудагддаг Статистикийн харилцах цонхыг ашиглах нь ховор байдаг. Энэ нь SPSS Viewer цонхонд Cluster Membership хүснэгтийг харуулах боломжийг олгодог бөгөөд үүнд эх өгөгдлийн файл дахь хариулагч бүрийг кластерын дугаарт буулгасан байдаг. Хангалттай олон тооны судалгаанд оролцогчидтой (маркетингийн судалгааны бараг бүх жишээн дээр) энэ хүснэгт нь "харилцагчийн тоо / кластерын дугаар" гэсэн утгуудын урт дараалал бөгөөд энэ хэлбэрээр тайлбарлах боломжгүй тул бүрэн ашиггүй болно. . Кластер шинжилгээний техникийн зорилго нь өгөгдлийн файлд судалгаанд оролцогчдыг зорилтот бүлгүүдэд хуваахыг тусгасан нэмэлт хувьсагчийг бий болгох явдал юм (кластер шинжилгээний үндсэн харилцах цонхны Хадгалах товчийг дарж). Энэ хувьсагч нь судалгаанд оролцогчдын тоотой хамт Кластерийн гишүүнчлэлийн хүснэгт юм. Статистикийн цонхон дээрх цорын ганц практик сонголт бол Дундаж холболт (Бүлгүүдийн хооронд) хүснэгтийг харуулах боловч үүнийг анхдагчаар тохируулсан байна. Тиймээс Статистик товчийг ашиглан SPSS Viewer цонхонд Cluster Membership хүснэгтийг тусад нь харуулах нь практик биш юм.

Plots товчийг дээр дурьдсан: үндсэн кластерын шинжилгээний харилцах цонхны Plots параметрийн сонголтыг цуцалж идэвхгүй болгох хэрэгтэй.

Кластер шинжилгээний процедурын эдгээр ховор хэрэглэгддэг функцүүдээс гадна SPSS нь маш хэрэгтэй сонголтуудыг санал болгодог. Тэдгээрийн дотроос юуны түрүүнд хариулагчдыг кластер болгон хуваарилдаг эх өгөгдлийн файлд шинэ хувьсагч үүсгэх боломжийг олгодог Хадгалах товчлуур юм. Мөн үндсэн харилцах цонхонд кластерын объектыг сонгох хэсэг байдаг: хариулагч эсвэл хувьсагч. Энэ боломжийг дээр 5.4-р хэсэгт авч үзсэн. Эхний тохиолдолд кластерийн шинжилгээг үндсэндээ зарим шалгуурын дагуу хариулагчдыг сегментчилэхэд ашигладаг; хоёрдугаарт, кластерийн шинжилгээний зорилго нь хүчин зүйлийн шинжилгээтэй төстэй: хувьсагчдын ангилал (тоо буурах).

Зураг дээрээс харж болно. 5.44-д заасны дагуу кластерийн шинжилгээний цорын ганц боломж бол статистикийн процедурыг явуулах аргыг сонгох товчлуур юм. Энэ параметрийг туршиж үзэх нь кластерын оновчтой тоог тодорхойлоход илүү нарийвчлалтай болох боломжийг танд олгоно. Ерөнхий хэлбэранхдагч тохиргоотой энэ харилцах цонхыг Зураг дээр үзүүлэв. 5.48.

Цагаан будаа. 5.48.

Энэ цонхонд хамгийн эхний зүйл бол кластер үүсгэх арга (өөрөөр хэлбэл ажиглалтыг нэгтгэх) юм. SPSS-ээс санал болгож буй статистикийн аргуудын бүх боломжит хувилбаруудаас та анхдагч бүлэг хоорондын холболтын арга эсвэл Тойргийн (Тойргийн арга) аль нэгийг сонгох хэрэгтэй. Эхний аргыг олон талт байдал, харьцангуй энгийн байдлаас шалтгаалан ихэвчлэн ашигладаг. түүний үндэслэсэн статистикийн процедур.Энэ аргыг ашиглан кластер хоорондын зайг бүх боломжит хос ажиглалтын хоорондох зайны дундажаар тооцдог ба давталт бүрт нэг кластераас нэг ажиглалт, нөгөөгөөс хоёр дахь ажиглалтыг хамарсан.онолын хувьд боломжтой хосууд. Тойргийн арга нь ойлгоход илүү төвөгтэй бөгөөд түгээмэл хэрэглэгддэггүй. Энэ нь олон үе шатаас бүрдэх бөгөөд ажиглалт бүрийн бүх хувьсагчийн утгыг дундажлаж, тооцоолсон дундажаас ажиглалт болгон хүртэлх зайны квадратын нийлбэрт суурилдаг. практик зорилго, маркетинг Шинэ судалгаа хийхийн тулд бид үргэлж "Бүлгүүдийн хооронд холбох" аргыг ашиглахыг зөвлөж байна.

Статистикийн кластерын процедурыг сонгосны дараа ажиглалтын хоорондох зайг тооцоолох аргыг сонгоно уу (Аргын харилцах цонхны талбайг хэмжих). Орших янз бүрийн аргакластерийн шинжилгээнд хамрагдсан гурван төрлийн хувьсагчийн зайг тодорхойлох (сегментийн шалгуур). Эдгээр хувьсагч нь интервал (интервал), нэрлэсэн (тоолох) эсвэл дихотом (хоёртын) хуваарьтай байж болно. Дихотомийн хуваарь (Хоёртын тоо) нь зөвхөн үйл явдлын тохиолдох / тохиолдохгүй байхыг (худалдаж авсан / худалдаж аваагүй, тийм / үгүй ​​гэх мэт) тусгасан хувьсагчдыг агуулдаг. Бусад төрлийн дихотом хувьсагчдыг (жишээлбэл, эрэгтэй/эмэгтэй) нэрлэсэн (Тооллого) гэж үзэж, дүн шинжилгээ хийх хэрэгтэй.

Интервалын хувьсагчдын зайг тодорхойлох хамгийн түгээмэл арга бол өгөгдмөл Квадрат Евклидийн зай юм. Энэ арга нь маркетингийн судалгаанд хамгийн үнэн зөв бөгөөд бүх нийтийнх гэдгээ нотолсон юм. Гэсэн хэдий ч ажиглалтыг зөвхөн хоёр утгаар (жишээлбэл, 0 ба 1) төлөөлдөг дихотом хувьсагчдын хувьд энэ арга тохиромжгүй. Гол нь энэ нь зөвхөн ажиглалтын хоорондох харилцан үйлчлэлийг харгалзан үздэг: X = 1,Y = 0 ба X = 0, Y=l (үүнд X ба Y нь хувьсагч) бөгөөд бусад төрлийн харилцан үйлчлэлийг тооцдоггүй. Хоёр дихотомийн хувьсагчийн хоорондын харилцан үйлчлэлийн бүх чухал төрлийг харгалзан үзсэн зайны хамгийн цогц хэмжүүр бол Ламбда арга юм. Олон талт байдлаас шалтгаалан энэ аргыг ашиглахыг зөвлөж байна. Гэсэн хэдий ч Shape, Hamann эсвэл Anderbergs's D гэх мэт өөр аргууд байдаг.

Дихотомийн хувьсагчдын зайг тодорхойлох аргыг зааж өгөхдөө судалж буй дихотомийн хувьсагчдын авч болох тодорхой утгыг харгалзах талбарт зааж өгөх шаардлагатай: Одоогийн талбарт - Тийм гэсэн хариулт, Байхгүй талбарт - Үгүй. . Байгаа болон байхгүй талбаруудын нэрс нь Хоёртын аргын бүлэгт зөвхөн үйл явдлын тохиолдох / тохиолдохгүй байдлыг тусгасан дихотомийн хувьсагчдыг ашиглах ёстой байдагтай холбоотой юм. Interval болон Binary гэсэн хоёр төрлийн хувьсагчийн хувьд зайг тодорхойлох хэд хэдэн арга байдаг. Нэрлэсэн масштабтай хувьсагчийн хувьд SPSS нь зөвхөн хоёр аргыг санал болгодог: (Хи-квадрат хэмжүүр) ба (Фи-квадрат хэмжүүр). Бид эхний аргыг хамгийн түгээмэл гэж ашиглахыг зөвлөж байна.

Аргын харилцах цонх нь Стандартчиллын талбар агуулсан Transform Values ​​талбартай. Энэ талбарыг кластерийн шинжилгээнд янз бүрийн масштабтай хувьсагч (жишээлбэл, интервал ба нэрлэсэн) оролцох үед ашигладаг. Эдгээр хувьсагчдыг кластерийн шинжилгээнд ашиглахын тулд тэдгээрийг нэг төрлийн масштабын интервал руу хөтөлж, стандартчилал хийх шаардлагатай. Хувьсагчийн стандартчиллын хамгийн түгээмэл арга бол 2 стандартчилал (Zscores): бүх хувьсагчдыг -3-аас +3 хүртэлх нэг утгын муж болгон бууруулж, хувиргасны дараа интервал болно.

Бүх оновчтой аргуудыг (бүлэглэх, зайг тодорхойлох) анхдагчаар тохируулсан байдаг тул Аргын харилцах цонхыг зөвхөн шинжлэх хувьсагчийн төрлийг зааж өгөх, мөн хувьсагчийн 2-стандарчлалыг хийх шаардлагатайг зааж өгөхийг зөвлөж байна.

Тиймээс бид кластер шинжилгээнд зориулж SPSS-ээс өгсөн бүх үндсэн шинж чанаруудыг тайлбарлав. Агаарын тээврийн компаниудыг сегментчлэх зорилгоор хийсэн кластерийн шинжилгээний тайлбар руу буцъя. Бид арван зургаан кластерийн шийдэл дээр тогтож, эх өгөгдлийн файлд clul6_l шинэ хувьсагчийг үүсгэн, дүн шинжилгээ хийсэн бүх агаарын тээврийн компаниудыг кластер болгон хуваарилсныг санаарай.

Бид кластеруудын оновчтой тоог хэр зөв тодорхойлсон бэ гэдгийг тогтоохын тулд бид clul6_l хувьсагчийн шугаман тархалтыг бий болгох болно (Цэс Шинжилгээ > Тайлбарлах статистик > Давтамж). Зурагт үзүүлсэн шиг. 5.49, 5-16 дугаартай кластеруудад судалгаанд оролцогчдын тоо 1-7 хооронд хэлбэлздэг. Дээр дурдсан кластеруудын оновчтой тоог тодорхойлох бүх нийтийн аргын зэрэгцээ (санал асуулгад оролцогчдын нийт тоо болон эхний үсрэлт хоорондын зөрүүг үндэслэн) бөөгнөрөлийн коэффициент), мөн нэмэлт зөвлөмж байдаг: кластеруудын хэмжээ нь статистикийн хувьд ач холбогдолтой, практик байх ёстой. Бидний түүврийн хэмжээгээр ийм чухал утгыг дор хаяж 10-ын түвшинд тогтоож болно. Зөвхөн 1-4 гэсэн тоо бүхий кластерууд энэ нөхцөлд багтдаг болохыг бид харж байна. Тиймээс одоо дөрвөн кластер шийдлийн гаралтаар кластерын шинжилгээний процедурыг дахин тооцоолох шаардлагатай байна (шинэ du4_l хувьсагч үүснэ).


Цагаан будаа. 5.49.

Шинээр үүсгэгдсэн du4_l хувьсагч дээр шугаман тархалтыг бий болгосноор бид зөвхөн хоёр кластерт (1 ба 2) судалгаанд оролцогчдын тоо практик ач холбогдолтой болохыг харах болно. Бид кластерийн загварыг дахин бүтээх хэрэгтэй -- одоо хоёр кластер шийдлийн хувьд. Үүний дараа бид du2_l хувьсагчтай холбоотой тархалтыг байгуулна (Зураг 5.50). Хүснэгтээс харахад хоёр кластерын шийдэл нь үүссэн хоёр кластер бүрт статистик болон бодитой чухал тооны судалгаанд оролцогчидтой байна: 1-р кластерт - 695 судалгаанд оролцогчид; 2-р кластерт - 40. Тиймээс бид даалгаврынхаа хамгийн оновчтой кластерын тоог тодорхойлж, сонгосон долоон шалгуурын дагуу судалгаанд оролцогчдыг бодит сегментчилсэн. Одоо бид даалгаврынхаа гол зорилгод хүрсэн гэж үзээд кластерийн шинжилгээний эцсийн шат буюу олж авсан зорилтот бүлгүүдийн (сегментүүдийн) тайлбарыг үргэлжлүүлж болно.


Цагаан будаа. 5.50.

Үүний үр дүнд гарсан шийдэл нь таны харж байснаас арай өөр юм сургалтын хэрэглэгдэхүүн SPSS-ээр. Хамгийн практик чиг баримжаатай сурах бичгүүдэд хүртэл кластер хийх нь судалгаанд оролцогчдын хамгийн тохиромжтой зорилтот бүлгийг бий болгодог хиймэл жишээг өгдөг. Зарим тохиолдолд (5) зохиогчид жишээнүүдийн зохиомол гарал үүслийг шууд зааж өгдөг. Энэ зааварт бид хамгийн тохиромжтой харьцаагаар тодорхойлогддоггүй маркетингийн практик судалгааны бодит жишээг кластер шинжилгээний үйл ажиллагааны жишээ болгон ашиглах болно. Энэ нь кластерийн шинжилгээ хийхэд хамгийн түгээмэл тохиолддог бэрхшээлүүд, тэдгээрийг арилгах хамгийн сайн аргуудыг харуулах боломжийг олгоно.

Үүссэн кластеруудын тайлбарыг үргэлжлүүлэхээсээ өмнө нэгтгэн дүгнэж үзье. Бид кластеруудын оновчтой тоог тодорхойлох дараах схемтэй байна.

¦ 1-р алхамд бид бөөгнөрөлийн коэффициент дээр үндэслэн математикийн аргаар кластерын тоог тодорхойлно.

¦ 2-р шатанд бид хариулагчдыг олж авсан кластерын тоогоор нь бүлэглээд дараа нь үүссэн шинэ хувьсагчийн (clul6_l) дагуу шугаман тархалтыг байгуулна. Эндээс та статистикийн ач холбогдол бүхий судалгаанд оролцогчдын хэдэн кластераас бүрдэхийг тодорхойлох хэрэгтэй. Ерөнхийдөө 10-аас доошгүй судалгаанд оролцогчдын түвшинд кластерын мэдэгдэхүйц тоог тогтоохыг зөвлөж байна.

¦ Хэрэв бүх кластерууд энэ шалгуурыг хангаж байвал бид кластерын шинжилгээний эцсийн шат болох кластерын тайлбарыг хийнэ. Хэрэв тэдгээрийн бүрдүүлсэн ажиглалтын тоо багатай кластерууд байгаа бол бид хэд хэдэн кластер нь нэлээд олон тооны судалгаанд оролцогчдоос бүрдэхийг тодорхойлдог.

¦ Бид Хадгалах харилцах цонхонд олон тооны ажиглалтаас бүрдэх кластерын тоог зааж өгснөөр кластерын шинжилгээний процедурыг дахин тооцоолно.

¦ Бид шинэ хувьсагч дээр шугаман тархалтыг бий болгодог.

Бүх кластерууд нь статистикийн хувьд мэдэгдэхүйц тооны судалгаанд оролцогчдоос бүрдэх шийдэл олдох хүртэл энэ үйлдлүүдийн дарааллыг давтана. Үүний дараа та кластерын шинжилгээний эцсийн шат - кластерын тайлбар руу шилжиж болно.

Кластерын тооны практик болон статистик ач холбогдлын шалгуур нь кластеруудын оновчтой тоог тодорхойлох цорын ганц шалгуур биш гэдгийг онцгойлон тэмдэглэх нь зүйтэй. Судлаач өөрийн туршлага дээрээ үндэслэн кластерын тоог бие даан санал болгож болно (ач холбогдлын нөхцөл хангагдсан байх ёстой). Өөр нэг хувилбар бол судалгаанд оролцогчдыг тодорхой тооны зорилтот бүлгүүдэд хуваах нөхцөлийг урьдчилан тогтоосон нийтлэг нөхцөл байдал юм. Энэ тохиолдолд та шаардлагатай тооны кластерыг хадгалахын тулд шаталсан кластерын шинжилгээг нэг удаа хийж, дараа нь юу болж байгааг тайлбарлахыг оролдох хэрэгтэй.

Үүссэн зорилтот сегментүүдийг дүрслэхийн тулд судалж буй хувьсагчдын дундаж утгыг (кластерын төв) харьцуулах процедурыг ашиглах хэрэгтэй. Бид үүссэн хоёр кластер тус бүрд авч үзсэн сегментчлэлийн долоон шалгуурын дундаж утгыг харьцуулах болно.

Дундажуудыг харьцуулах процедурыг Analyze > Compare Means > Means цэсийг ашиглан дуудна. Нээгдэх харилцах цонхноос (Зураг 5.51) зүүн талын жагсаалтаас сегментчлэлийн шалгуур (ql3-ql9) болгон сонгосон долоон хувьсагчийг сонгоод хамааралтай хувьсагчдын Dependent List талбарт шилжүүлнэ. Дараа нь асуудлын эцсийн (хоёр кластер) шийдэлд хариулагчдын кластерт хуваагдахыг тусгасан сШ2_1 хувьсагчийг зүүн талын жагсаалтаас бие даасан хувьсагчийн бие даасан жагсаалтын талбарт шилжүүлнэ. Дараа нь Options товчийг дарна уу.

Цагаан будаа. 5.51.

Сонголтуудын харилцах цонх нээгдэж, кластеруудыг харьцуулахын тулд шаардлагатай статистикийг сонгоно уу (Зураг 5.52). Үүнийг хийхийн тулд Cell Statistics талбарт зөвхөн дундаж утгуудын гаралтыг үлдээж, үүнээс бусад анхдагч статистикийг устгана уу. Үргэлжлүүлэх товчийг дарж Сонголтуудын харилцах цонхыг хаа. Эцэст нь, үндсэн "Means" харилцах цонхноос дундажийг харьцуулах процедурыг эхлүүлнэ үү (OK товчлуур).

Цагаан будаа. 5.52.

Нээгдэх SPSS Viewer цонхонд дундаж утгыг харьцуулах статистик процедурын үр дүн гарч ирнэ. Бид Тайлангийн хүснэгтийг сонирхож байна (Зураг 5.53). Эндээс та SPSS ямар үндэслэлээр судалгаанд оролцогчдыг хоёр кластерт хуваасан болохыг харж болно. Манай тохиолдолд ийм шалгуур нь дүн шинжилгээ хийсэн параметрүүдийн үнэлгээний түвшин юм. 1-р кластер нь сегментчлэлийн бүх шалгуурын дундаж оноо харьцангуй өндөр (4.40 оноо ба түүнээс дээш) байгаа судалгаанд оролцогчдоос бүрддэг. 2-р бүлэгт сегментчлэлийн шалгуурыг нэлээд доогуур (3.35 оноо ба түүнээс доош) үнэлсэн судалгаанд оролцогчид багтсан болно. Тиймээс бид 1-р кластерийг бүрдүүлсэн санал асуулгад оролцогчдын 93.3% нь дүн шинжилгээ хийсэн агаарын тээврийн компаниудыг бүх талаараа ерөнхийдөө сайн гэж дүгнэсэн гэж дүгнэж болно; 5.4% нь нэлээд бага; 1.3% нь хариулахад хэцүү гэж үзсэн (5.50-р зургийг үз). Зураг дээрээс. 5.53-т тус тусад нь авч үзсэн параметр бүрийн үнэлгээний түвшин өндөр, аль нь бага байна гэж дүгнэж болно (мөн энэ дүгнэлтийг судалгаанд оролцогчид гаргах бөгөөд энэ нь ангиллын өндөр нарийвчлалд хүрэх боломжийг олгодог). Тайлангийн хүснэгтээс Queue Throttling хувьсагчийн хувьд 4.40-ийн дундаж оноог өндөр гэж үздэг ба параметрийн хувьд Гадаад төрх -- 4.72.


Цагаан будаа. 5.53.

Үүнтэй төстэй тохиолдолд 4.5 нь X параметрийн хувьд өндөр оноо, Y параметрийн хувьд зөвхөн 3.9 гэж тооцогддог. Энэ нь кластерийн алдаа биш, харин эсрэгээр нь авч үзэж буй параметрүүдийн ач холбогдлын талаар судалгаанд оролцогчдын хувьд чухал дүгнэлт гаргах боломжтой болно. Тиймээс Y параметрийн хувьд аль хэдийн 3.9 оноо нь сайн үнэлгээ байсан бол X параметрийн хувьд судалгаанд оролцогчид илүү хатуу шаардлага тавьдаг.

Бид сегментчлэлийн шалгуурын дагуу дундаж онооны түвшинд ялгаатай хоёр чухал кластерийг тодорхойлсон. Одоо та хүлээн авсан кластеруудад шошго оноож болно: 1-д - Судалгаанд оролцогчдын шаардлагыг хангасан агаарын тээврийн компаниуд (шинжилсэн долоон шалгуурын дагуу); 2 -- Судалгаанд оролцогчдын шаардлагыг хангаагүй агаарын тээврийн компаниуд. Одоо та ямар агаарын тээврийн компаниуд (q4 хувьсагчаар кодлогдсон) санал асуулгад оролцогчдын шаардлагад нийцэж байгааг, аль нь сегментчлэлийн шалгуурт нийцэхгүй байгааг харж болно. Үүнийг хийхийн тулд clu2_l кластерийн хувьсагчаас хамааран q4 хувьсагчийн (шинжилсэн агаарын тээврийн компаниуд) хөндлөн тархалтыг бий болгох хэрэгтэй. Ийм хөндлөн огтлолын шинжилгээний үр дүнг Зураг дээр үзүүлэв. 5.54.

Энэ хүснэгтэд үндэслэн сонгогдсон зорилтот сегмент дэх судлагдсан агаарын тээврийн компаниудын гишүүнчлэлийн талаар дараах дүгнэлтийг гаргаж болно.


Цагаан будаа. 5.54.

1. Газрын ажилтнуудын ажлын хувьд бүх үйлчлүүлэгчдийн шаардлагыг бүрэн хангасан агаарын тээврийн компаниуд (зөвхөн нэг эхний кластерт багтсан):

¦ Внуково агаарын тээврийн компани;

¦ American Airlines;

¦ Delta Airlines;

Австрийн агаарын тээврийн компани;

¦ British Airways;

¦ Korean Airlines;

Japan Airlines.

2. Газар дээрх ажилтнуудын ажлын хувьд үйлчлүүлэгчдийнхээ ихэнх шаардлагыг хангасан агаарын тээврийн компаниуд (эдгээр агаарын тээврийн компаниудтай нисдэг санал асуулгад оролцогчдын ихэнх нь газрын ажилтнуудын ажилд сэтгэл хангалуун байдаг):

¦ Трансаэро.

3. Хэрэглэгчдийнхээ дийлэнх нь газрын ажилтнуудын ажлын шаардлагад нийцдэггүй агаарын тээврийн компаниуд (эдгээр агаарын тээврийн компаниудтай нислэг үйлдэж буй судалгаанд оролцогчдын дийлэнх нь газрын ажилтнуудын ажилд сэтгэл хангалуун бус байдаг):

¦ Домодедово агаарын тээврийн компани;

¦ Пулково;

¦ Сибирь;

¦ Уралын агаарын тээврийн компани;

¦ Самара агаарын тээврийн компани;

Ийнхүү агаарын тээврийн компаниудын зорилтот гурван сегментийг дундаж үнэлгээний түвшингээр авсан бөгөөд судалгаанд оролцогчдын газрын ажилтнуудын ажилд сэтгэл ханамжийн янз бүрийн түвшингээр тодорхойлогддог.

  • 1. газрын ажилтнуудын ажлын түвшний хувьд зорчигчдод хамгийн сонирхолтой агаарын тээврийн компаниуд (14);
  • 2. нэлээд сонирхол татахуйц агаарын тээврийн компаниуд (1);
  • 3. нилээд сонирхолгүй агаарын тээврийн компаниуд (7).

Бид кластерын шинжилгээний бүх үе шатыг амжилттай хийж, агаарын тээврийн компаниудыг сонгосон долоон шалгуурын дагуу сегментчилсэн.

Одоо бид хүчин зүйлийн шинжилгээтэй хослуулсан кластер шинжилгээний аргачлалын тайлбарыг өгье. Бид 5.2.1-д заасан асуудлын нөхцөлийг ашигладаг (факторын шинжилгээ). Өмнө дурьдсанчлан, олон тооны хувьсагчтай сегментчлэлийн асуудалд кластерийн шинжилгээг хүчин зүйлийн шинжилгээ хийхээс өмнө хийхийг зөвлөж байна. Энэ нь сегментчлэлийн шалгууруудын тоог хамгийн чухал шалгуур болгон багасгахын тулд хийгддэг. Манай тохиолдолд анхны өгөгдлийн файлд 24 хувьсагч байна. Хүчин зүйлийн шинжилгээний үр дүнд бид тэдгээрийн тоог 5 болгон бууруулж чадсан. Одоо энэ тооны хүчин зүйлсийг кластерийн шинжилгээнд үр дүнтэй ашиглаж, хүчин зүйлүүдийг өөрсдөө сегментчлэлийн шалгуур болгон ашиглаж болно.

Хэрэв бид санал асуулгад оролцогчдыг Х агаарын тээврийн компанийн өнөөгийн өрсөлдөөнт байдлын янз бүрийн талуудын үнэлгээний дагуу сегментчилэх даалгавартай тулгарвал бид тодорхойлсон таван шалгуурын дагуу (nfacl_l-nfac5_l хувьсагч) шаталсан кластерийн шинжилгээ хийж болно. Манай тохиолдолд хувьсагчдыг өөр өөр масштабаар үнэлдэг байсан. Жишээлбэл, "Би агаарын тээврийн компанийг өөрчлөхийг хүсэхгүй байна" гэсэн мэдэгдэлд 1 оноо авсан бол агаарын тээврийн компанид гарсан өөрчлөлтүүд нь утгын хувьд огт өөр эерэг мөч байх болно. Эхний тохиолдолд 1 оноо (байхгүй санал нийлэхгүй байна) нь хариуцагч агаарын тээврийн компанийн өөрчлөлтийг сайшааж байгааг илэрхийлнэ; хоёр дахь тохиолдолд 1 оноо нь хариуцагч агаарын тээврийн компанийн өөрчлөлтөөс татгалзаж байгааг харуулж байна. Кластеруудыг тайлбарлахдаа бид зайлшгүй бэрхшээлтэй тулгарах болно, учир нь эсрэг утгатай ийм хувьсагчид

ижил хүчин зүйлд ордог. Тиймээс сегментчиллийн зорилгоор эхлээд судалж буй хувьсагчдын масштабыг нэг шугамд оруулж, дараа нь хүчин зүйлийн загварыг дахин тооцоолохыг зөвлөж байна. Цаашид хүчин зүйлийн шинжилгээний үр дүнд олж авсан хувьсагчид-хүчин зүйлс дээр кластер шинжилгээ хийх болно. Бид хүчин зүйл болон кластерийн шинжилгээний процедурыг дахин нарийвчлан тайлбарлахгүй (үүнийг дээр дурдсан хэсгүүдэд хийсэн). Энэ техникийг ашигласнаар бид сонгосон хүчин зүйлсийн үнэлгээний түвшинд (өөрөөр хэлбэл хувьсах бүлгүүдийн) ялгаатай гурван зорилтот бүлгийн агаарын зорчигчдыг олж авсныг бид тэмдэглэж байна: хамгийн бага, дундаж, хамгийн өндөр.

Маш ашигтай програмкластерийн шинжилгээ нь давтамжийн хүснэгтүүдийг бүлэгт хуваах явдал юм. Танай байгууллагад ямар брэндийн вирусны эсрэг програм суулгасан бэ гэсэн асуултад шугаман хариулт өгсөн гэж бодъё. Энэхүү түгээлтийн талаар дүгнэлт гаргахын тулд вирусны эсрэг брэндүүдийг хэд хэдэн бүлэгт (ихэвчлэн 2-3) хуваах шаардлагатай. Бүх брэндүүдийг гурван бүлэгт (хамгийн алдартай брэндүүд, дундаж алдар нэр, алдартай бус брэндүүд) хуваахын тулд кластерийн шинжилгээг ашиглах нь хамгийн сайн арга юм, гэхдээ дүрмээр бол судлаачид давтамжийн хүснэгтийн элементүүдийг субъектив үзэл баримтлалд үндэслэн нүдээр нь салгадаг. Энэ аргаас ялгаатай нь кластерийн шинжилгээ нь хийсэн бүлэглэлийг шинжлэх ухааны үндэслэлтэйгээр нотлох боломжийг олгодог. Үүнийг хийхийн тулд SPSS-д параметр бүрийн утгыг оруулаад (эдгээр утгыг хувиар илэрхийлэхийг зөвлөж байна) дараа нь эдгээр өгөгдөлд кластерийн шинжилгээ хийнэ. Шаардлагатай тооны бүлгийн (манай тохиолдолд 3) кластер шийдлийг шинэ хувьсагч болгон хадгалснаар бид статистикийн хувьд хүчинтэй бүлэглэлийг олж авдаг.

Бид энэ хэсгийн эцсийн хэсгийг хувьсах хэмжигдэхүүнүүдийг ангилах, түүний үр дүнг 5.2.1-д гүйцэтгэсэн хүчин зүйлийн шинжилгээний үр дүнтэй харьцуулахдаа кластерийн шинжилгээний хэрэглээг тайлбарлахад зориулах болно. Үүний тулд бид агаарын тээврийн зах зээл дэх X авиа компанийн одоогийн байр суурийг үнэлэх асуудлын нөхцөлийг дахин ашиглах болно. Кластерийн шинжилгээ хийх аргачлал нь дээр дурдсаныг бараг бүрэн давтдаг (харилцагчдыг сегментчилсэн үед).

Тиймээс, анхны өгөгдлийн файлд бид агаарын тээврийн X-ийн өнөөгийн өрсөлдөөнт байдлын янз бүрийн асуудалд оролцогчдын хандлагыг тодорхойлсон 24 хувьсагчтай байна. Шаталсан кластерийн шинжилгээний үндсэн харилцах цонхыг нээж, Хувьсагч хэсэгт 24 хувьсагч (ql-q24) байрлуулна уу. (s) талбар, зураг. 5.55. Cluster хэсэгт хувьсагчдыг ангилж байгаагаа зааж өгнө үү (Variables сонголтыг шалгана уу). Та "Хадгалах" товчийг ашиглах боломжгүй болсныг харах болно -- хүчин зүйлийн шинжилгээнээс ялгаатай нь кластер шинжилгээ нь бүх хариулагчдын хүчин зүйлийн үнэлгээг хадгалж чадахгүй. Plots сонголтыг идэвхгүй болгож графикийг идэвхгүй болгоно. Эхний алхамд танд өөр сонголт хэрэггүй тул OK товчийг дарж кластерын шинжилгээний процедурыг эхлүүлнэ үү.

SPSS Viewer цонхонд Aglomeration Schedule хүснэгт гарч ирсэн бөгөөд үүний дагуу бид дээр дурдсан аргыг ашиглан кластеруудын оновчтой тоог тодорхойлсон (Зураг 5.56). Бөөгнөрөлтийн коэффициентийн анхны үсрэлт 20-р алхам дээр ажиглагдаж байна (18834.000-аас 21980.967 хүртэл). 24-тэй тэнцүү дүн шинжилгээ хийсэн хувьсагчдын нийт тоонд үндэслэн кластерын оновчтой тоог тооцоолох боломжтой: 24 - 20 = 4.

Цагаан будаа. 5.55.


Цагаан будаа. 5.56.

Хувьсагчдыг ангилахдаа зөвхөн нэг хувьсагчаас бүрдэх кластер нь практик болон статистикийн ач холбогдолтой байдаг. Тиймээс бид математикийн аргаар хүлээн зөвшөөрөгдсөн тооны кластерыг олж авсан тул нэмэлт шалгалт хийх шаардлагагүй болно. Үүний оронд кластерын шинжилгээний үндсэн харилцах цонхыг дахин нээж (өмнөх алхамд ашигласан бүх өгөгдөл хадгалагдсан) Статистик товчийг дарж ангиллын хүснэгтийг харуулна. Та ижил нэртэй харилцах цонхыг харах бөгөөд 24 хувьсагчийг хуваах ёстой кластеруудын тоог зааж өгөх ёстой (Зураг 5.57). Үүний тулд Single solution сонголтыг сонгоод, тохирох талбарт шаардлагатай кластерын тоог зааж өгнө: 4. Одоо Continue товчийг дарж Statistics харилцах цонхыг хааж, кластерын шинжилгээний үндсэн цонхноос процедурыг ажиллуулна.

Үүний үр дүнд Cluster Membership хүснэгт SPSS Viewer цонхонд гарч, дүн шинжилгээ хийсэн хувьсагчдыг дөрвөн кластерт хуваарилах болно (Зураг 5.58).

Цагаан будаа. 5.58.

Энэ хүснэгтийн дагуу авч үзэж буй хувьсагч бүрийг тодорхой кластерт дараах байдлаар хуваарилж болно.

Кластер 1

ql. Airline X нь зорчигчдод маш сайн үйлчилгээ үзүүлдэг гэдгээрээ алдартай.

q2. Airline X нь дэлхийн шилдэг агаарын тээврийн компаниудтай өрсөлдөх чадвартай.

q3. Airline X нь дэлхийн агаарын тээврийн ирээдүйтэй гэдэгт би итгэдэг.

q5. Би Airline X компанид ажиллаж байгаадаа бахархаж байна.

q9. Бид дэлхийн жишигт нийцсэн агаарын тээврийн компани болох хүртэл маш их замыг туулах ёстой.

qlO. Airline X зорчигчдод үнэхээр санаа тавьдаг.

ql3. Airline X нь олон нийтэд (өнгө, брендийн хувьд) өөрийгөө хэрхэн харуулахад дуртай.

ql4. Airline X бол Оросын нүүр царай юм.

ql6. Airline X үйлчилгээ нь тогтвортой бөгөөд бүх талаараа танигдах боломжтой

ql8. Х агаарын тээврийн компани боломжоо бүрэн ашиглахын тулд өөрчлөгдөх шаардлагатай.

ql9. Airline X нь өөрийгөө илүү орчин үеийн байдлаар харуулах ёстой гэж би бодож байна.

q20. Х агаарын тээврийн компанид өөрчлөлт оруулах нь эерэг зүйл байх болно. q21. Airline X бол үр дүнтэй агаарын тээврийн компани юм.

q22. Гадаад зорчигчдын хувьд Х авиа компанийн имиж сайжираасай гэж хүсч байна.

q23. Airline X нь ихэнх хүмүүсийн бодож байгаагаас хамаагүй дээр юм.

q24. Биднийг Оросын агаарын тээврийн компани гэдгийг дэлхийн бүх хүмүүс мэдэх нь чухал.

Кластер 2

q4. Airline X-ийн ирээдүйн стратеги ямар байхыг би мэднэ.

q6. Airline X нь хэлтэс хоорондын харилцаа холбоо сайтай байдаг.

q7. Агаарын тээврийн компанийн ажилтан бүр амжилтанд хүрэхийн тулд бүх хүчин чармайлтаа гаргадаг.

q8. Одоо Airline X хурдацтай сайжирч байна.

qll. Агаарын тээврийн ажилтнуудын ажлын байрны сэтгэл ханамж өндөр байдаг.

ql2. Ахлах менежерүүд агаарын тээврийн компанийн амжилтанд хүрэхийн тулд чадах бүхнээ хийдэг гэдэгт би итгэдэг.

Кластер 3

ql5. Бид бусад агаарын тээврийн компаниудтай харьцуулахад "өчигдөр" шиг харагдаж байна.

Кластер 4

ql7. Би агаарын тээврийн X компанийг өөрчлөхийг хүсэхгүй байна.

Хэрэв та хүчин зүйлийн (хэсэг 5.2.1) болон кластер шинжилгээний үр дүнг харьцуулж үзвэл тэдгээр нь мэдэгдэхүйц ялгаатай болохыг харах болно. Кластерын шинжилгээ нь хүчин зүйлийн шинжилгээтэй харьцуулахад хувьсах кластер хийх боломж багатай (жишээлбэл, бүлгийн үнэлгээг хадгалах боломжгүй) төдийгүй харааны үр дүн багатай байдаг. Манай тохиолдолд 2, 3, 4-р кластерууд логик тайлбар хийх боломжтой хэвээр байвал 1-р кластер нь утгын хувьд огт өөр мэдэгдлүүдийг агуулна. Ийм нөхцөлд та кластер 1-ийг байгаагаар нь дүрслэх эсвэл өөр тооны кластертай статистикийн загварыг дахин бүтээх боломжтой. Сүүлчийн тохиолдолд, логикоор тайлбарлаж болох кластеруудын оновчтой тоог олохын тулд та Статистикийн харилцах цонхны Шийдлийн хүрээ параметрийг ашиглаж болно (Зураг 5.57-г үз), харгалзах талбарт кластерын хамгийн бага ба хамгийн их тоог зааж өгч болно ( манай тохиолдолд 4 ба 6 тус тус). Ийм нөхцөлд SPSS нь кластерын тоо бүрийн хувьд Кластерийн гишүүнчлэлийн хүснэгтийг дахин бүтээх болно. Энэ тохиолдолд шинжээчийн даалгавар бол бүх кластеруудыг хоёрдмол утгагүй тайлбарлах ангиллын загварыг сонгохыг оролдох явдал юм. Хувьсагчдыг кластер болгох кластерийн шинжилгээний процедурын чадварыг харуулахын тулд бид кластерийн загварыг дахин бүтээхгүй, харин дээр дурдсан зүйлээр хязгаарлагдах болно.

Хүчин зүйлийн шинжилгээтэй харьцуулахад кластерийн шинжилгээ нь илт энгийн боловч маркетингийн судалгааны бараг бүх тохиолдолд хүчин зүйлийн шинжилгээ нь кластерийн шинжилгээнээс илүү хурдан бөгөөд илүү үр дүнтэй байдаг гэдгийг тэмдэглэх нь зүйтэй. Тиймээс хувьсагчдын ангилалд (багасгах) хүчин зүйлийн шинжилгээг ашиглахыг зөвлөж, хариулагчдын ангилалд кластерийн шинжилгээг ашиглахыг зөвлөж байна.

Ангилалын шинжилгээ нь бэлтгэлгүй хэрэглэгчийн үүднээс статистикийн хамгийн төвөгтэй хэрэгслүүдийн нэг байж магадгүй юм. Энэ нь маркетингийн компаниудад маш бага тархсантай холбоотой юм. Гэсэн хэдий ч энэ бүлэг статистикийн аргуудЭнэ нь маркетингийн судалгааны чиглэлээр мэргэшсэн хүмүүст хамгийн хэрэгтэй зүйлсийн нэг юм.

Кластер шинжилгээ нь

Сайхан өдөр. Энд би ажилдаа дуртай хүмүүсийг хүндэлдэг.

Миний найз Максим энэ ангилалд багтдаг. Тоо баримттай байнга ажиллаж, дүн шинжилгээ хийж, холбогдох тайланг гаргадаг.

Өчигдөр бид хамтдаа үдийн хоол идсэн тул бараг хагас цагийн турш тэр надад кластерийн шинжилгээ гэж юу вэ, ямар тохиолдолд хэрэглэх нь үндэслэлтэй бөгөөд тохиромжтой болохыг хэлэв. За, би яах вэ?

Би сайн ой санамжтай тул би энэ бүх мэдээллийг анхны бөгөөд хамгийн мэдээлэлтэй хэлбэрээр нь аль хэдийн мэддэг байсан дашрамд өгөх болно.

Кластер шинжилгээ нь объектуудыг нэг төрлийн бүлэгт (кластер эсвэл анги) хуваахад зориулагдсан. Энэ бол олон хувьсагчтай өгөгдлийн ангиллын ажил юм.

100 орчим өөр кластер хийх алгоритмууд байдаг ч хамгийн түгээмэл хэрэглэгддэг нь шаталсан кластерын шинжилгээ ба k-дундаж кластерчлал юм.

Кластер шинжилгээг хаана ашигладаг вэ? Маркетингийн хувьд энэ нь өрсөлдөгчид болон хэрэглэгчдийн сегментчилэл юм.

Удирдлагын хувьд: боловсон хүчнийг янз бүрийн түвшний сэдэл, бүлгүүдэд хуваах, ханган нийлүүлэгчдийг ангилах, гэрлэлтийн ижил төстэй үйлдвэрлэлийн нөхцөл байдлыг тодорхойлох.

Анагаах ухаанд шинж тэмдгийн ангилал, өвчтөн, эм. Социологийн хувьд судалгаанд оролцогчдыг нэг төрлийн бүлэгт хуваах. Үнэн хэрэгтээ кластерийн шинжилгээ нь хүний ​​амьдралын бүхий л салбарт сайнаар нотлогдсон.

Энэ аргын гоо үзэсгэлэн нь өгөгдөл багатай, санамсаргүй хэмжигдэхүүний тархалтын хэвийн байдалд тавигдах шаардлага болон статистик шинжилгээний сонгодог аргын бусад шаардлагыг хангаагүй үед ч ажилладаг.

Хатуу нэр томьёо ашиглахгүйгээр кластер шинжилгээний мөн чанарыг тайлбарлая.
Та ажилчдын дунд санал асуулга явуулж, ажилтнуудаа хэрхэн хамгийн үр дүнтэй удирдахаа тодорхойлохыг хүсч байна гэж бодъё.

Өөрөөр хэлбэл, та ажилчдыг бүлгүүдэд хувааж, тус бүрдээ хамгийн үр дүнтэй хяналтын хөшүүргийг сонгохыг хүсч байна. Үүний зэрэгцээ, бүлгүүдийн хоорондын ялгаа нь тодорхой байх ёстой бөгөөд бүлгийн дотор санал асуулгад оролцогчид аль болох ижил төстэй байх ёстой.

Асуудлыг шийдвэрлэхийн тулд шаталсан кластерийн шинжилгээг ашиглахыг санал болгож байна.

Үүний үр дүнд бид модыг олж авах бөгөөд үүнийг хараад бид ажилчдыг хэдэн ангид (бүлэг) хуваахыг хүсч байгаагаа шийдэх ёстой.

Бид ажилчдаа гурван бүлэгт хуваахаар шийдсэн гэж бодъё, дараа нь кластер бүрт унасан хариулагчдыг судлахын тулд бид дараах агуулга бүхий таблетыг авна.


Дээрх хүснэгт хэрхэн үүссэнийг тайлбарлая. Эхний баганад өгөгдөл нь мөрөнд тусгагдсан кластерын дугаарыг агуулна.

Жишээлбэл, эхний кластер нь 80% эрэгтэй. Эхний кластерын 90% нь 30-аас 50 хүртэлх насны ангилалд багтдаг бөгөөд судалгаанд оролцогчдын 12% нь тэтгэмж маш чухал гэж үздэг. гэх мэт.

Кластер бүрийн судалгаанд оролцогчдын хөрөг зургийг гаргахыг хичээцгээе.

  1. Эхний бүлэг нь ихэвчлэн эрэгтэйчүүд байдаг. дундаж насудирдах албан тушаал хашиж байна. Нийгмийн багц (MED, LGOTI, TIME-free time) нь тэднийг сонирхдоггүй. Тэд ажил олгогчоос тусламж авахаас илүү сайн цалин авахыг илүүд үздэг.
  2. Хоёрдугаар бүлэг нь эсрэгээрээ нийгмийн багцыг илүүд үздэг. Энэ нь голчлон бага албан тушаал хашдаг "настан" хүмүүсээс бүрддэг. Тэдний хувьд цалин нь мэдээж чухал, гэхдээ бусад тэргүүлэх чиглэлүүд бий.
  3. Гурав дахь бүлэг нь "хамгийн залуу" юм. Өмнөх хоёроос ялгаатай нь суралцах сонирхол, мэргэжлийн өсөлтийн боломжууд илт байна. Энэ ангиллын ажилчид удахгүй эхний бүлгийг нөхөх сайхан боломж байна.

Тиймээс боловсон хүчний менежментийн үр дүнтэй аргыг нэвтрүүлэх кампанит ажлыг төлөвлөхдөө манай нөхцөлд хоёрдугаар бүлгийн нийгмийн багцыг, жишээлбэл, цалин хөлсөнд сөргөөр нөлөөлөх боломжтой гэдэг нь ойлгомжтой.

Хэрэв бид ямар мэргэжилтнүүдийг сургалтанд явуулах талаар ярих юм бол гурав дахь бүлэгт анхаарлаа хандуулахыг зөвлөж байна.

Эх сурвалж: http://website/www.nickart.spb.ru/analysis/cluster.php

Кластер шинжилгээний онцлог

Кластер гэдэг нь гүйлгээ хийгдсэн тодорхой хугацаанд хөрөнгийн үнэ юм. Үүссэн худалдан авалт, борлуулалтын хэмжээг кластер доторх тоогоор заана.

Аливаа TF-ийн баар нь дүрмээр бол хэд хэдэн кластер агуулдаг. Энэ нь үнийн түвшин тус бүрээр тус бүр дээр байгаа худалдан авалт, борлуулалтын хэмжээ, тэдгээрийн үлдэгдлийг нарийвчлан харах боломжийг олгоно.


Нэг хөрөнгийн үнийн өөрчлөлт нь бусад хэрэгслийн үнийн гинжин хэлхээг зайлшгүй дагуулдаг.

Анхаар!

Ихэнх тохиолдолд чиг хандлагын хөдөлгөөний талаархи ойлголт нь хурдацтай хөгжиж байгаа тэр мөчид аль хэдийн гарч ирдэг бөгөөд чиг хандлагын дагуу зах зээлд орох нь залруулах долгион руу унах эрсдэлтэй байдаг.

Амжилттай арилжаа хийхийн тулд одоогийн нөхцөл байдлыг ойлгож, ирээдүйн үнийн хөдөлгөөнийг урьдчилан таамаглах чадвартай байх шаардлагатай. Үүнийг кластер графикт дүн шинжилгээ хийх замаар мэдэж болно.

Кластер шинжилгээний тусламжтайгаар та хамгийн бага үнийн бараас ч зах зээлд оролцогчдын үйл ажиллагааг харж болно. Хөрөнгийн үнийн түвшин тус бүрээр гүйлгээний эзлэхүүний цэгийн хуваарилалтыг харуулдаг тул энэ нь хамгийн үнэн зөв бөгөөд нарийвчилсан дүн шинжилгээ юм.

Зах зээл дээр худалдагч, худалдан авагчдын ашиг сонирхлын хооронд байнгын зөрчилдөөн байдаг. Үнийн хамгийн жижиг хөдөлгөөн (шалз) бүр нь буулт хийх алхам буюу үнийн түвшин юм Энэ мөчхоёр талдаа тохирно.

Гэхдээ зах зээл динамик, худалдагч, худалдан авагчдын тоо байнга өөрчлөгдөж байдаг. Хэзээ нэгэн цагт зах зээлд худалдагч нар ноёрхож байсан бол дараагийн мөчид худалдан авагчид байх магадлалтай.

Хөрш үнийн түвшинд хийгдсэн гүйлгээний тоо мөн адил биш байна. Гэсэн хэдий ч, нэгдүгээрт, зах зээлийн нөхцөл байдал нь гүйлгээний нийт хэмжээ, зөвхөн дараа нь үнэд тусгагдсан байдаг.

Хэрэв та зах зээлд давамгайлж буй оролцогчдын (худалдагч эсвэл худалдан авагч) үйлдлийг харвал үнийн хөдөлгөөнийг өөрөө урьдчилан таамаглах боломжтой.

Кластер шинжилгээг амжилттай хэрэгжүүлэхийн тулд эхлээд кластер ба дельта гэж юу болохыг ойлгох хэрэгтэй.


Кластерийг үнийн хөдөлгөөн гэж нэрлэдэг бөгөөд энэ нь тодорхой хэмжээний гүйлгээ хийгдсэн түвшинд хуваагддаг. Дельта нь кластер бүрт тохиолддог худалдан авах, худалдах хоёрын ялгааг харуулдаг.

Кластер буюу дельтануудын бүлэг бүр нь тухайн үед худалдан авагч эсвэл худалдагч зах зээлд давамгайлж байгаа эсэхийг тодорхойлох боломжийг олгодог.

Борлуулалт, худалдан авалтыг нэгтгэн нийт дельтийг тооцоолоход л хангалттай. Хэрэв дельта сөрөг байвал зах зээл хэт борлогдож, илүүдэл борлуулалтын гүйлгээ байдаг. Дельта эерэг байвал зах зээлд худалдан авагчид давамгайлах нь тодорхой.

Дельта өөрөө хэвийн эсвэл чухал утгыг авч болно. Кластер дахь хэвийн утгаас дээш байгаа дельта эзлэхүүний утгыг улаанаар тодруулсан.

Хэрэв дельта нь дунд зэрэг байвал энэ нь зах зээл дээрх тэгш байдлыг тодорхойлдог. Хэвийн дельта утгын хувьд зах зээл дээр трендийн хөдөлгөөн ажиглагдаж байгаа боловч эгзэгтэй үнэ цэнэ нь үнийн өөрчлөлтийг үргэлж илэрхийлдэг.

CA-тай Forex арилжаа хийх

Хамгийн их ашиг олохын тулд дельта дунд зэргийн түвшингээс хэвийн түвшинд шилжих шилжилтийг тодорхойлох чадвартай байх хэрэгтэй. Үнэн хэрэгтээ, энэ тохиолдолд та хавтгай байдлаас чиг хандлага руу шилжих шилжилтийн эхлэлийг анзаарч, хамгийн их ашиг олох боломжтой болно.

Илүү их харагдахуйц бол кластер диаграм бөгөөд та эзлэхүүний хуримтлал, тархалтын мэдэгдэхүйц түвшинг харж, дэмжлэг, эсэргүүцлийн түвшинг бий болгож чадна. Энэ нь худалдаачинд арилжааны яг оруулгыг олох боломжийг олгодог.

Дельта ашиглан зах зээл дээрх борлуулалт эсвэл худалдан авалт давамгайлж байгааг дүгнэж болно. Кластер шинжилгээ нь гүйлгээг ажиглах, тэдгээрийн эзлэхүүнийг ямар ч TF-ийн баар дотор хянах боломжийг олгодог.

Энэ нь мэдэгдэхүйц дэмжлэг эсвэл эсэргүүцлийн түвшинд ойртох үед онцгой чухал юм. Зах зээлийг ойлгох түлхүүр нь кластерийн дүгнэлт юм.

Эх сурвалж: http://website/orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Кластер шинжилгээний хэрэглээний чиглэл, онцлог

Кластер анализ гэдэг нэр томьёо (анх 1939 онд Tryon нэвтрүүлсэн) нь үнэндээ өөр өөр ангиллын алгоритмуудыг агуулдаг.

Ерөнхий асуулт, олон салбарын судлаачдын асуусан нь ажиглагдсан өгөгдлийг харааны бүтцэд хэрхэн зохион байгуулах вэ, i.e. ангилал зүйг өргөжүүлэх.

-ын дагуу орчин үеийн системБиологид хүлээн зөвшөөрөгдсөн хүн бол примат, хөхтөн амьтад, амниот, сээр нуруутан, амьтдад хамаардаг.

Энэ ангилалд нэгтгэх түвшин өндөр байх тусам харгалзах ангийн гишүүдийн хоорондын ижил төстэй байдал бага байгааг анхаарна уу.

Хүн хөхтөн амьтдын гэр бүлийн "алслагдсан" гишүүдтэй (жишээлбэл, нохой) гэх мэт бусад приматуудтай (өөрөөр хэлбэл сармагчин) илүү төстэй байдаг.

Өмнөх хэлэлцүүлэг нь кластерын алгоритмуудын тухай ярьж байгаа боловч статистикийн ач холбогдлыг шалгах талаар юу ч дурдаагүй болохыг анхаарна уу.

Үнэн хэрэгтээ кластерийн шинжилгээ нь ердийн статистикийн арга биш, харин "объектуудыг кластер болгон хуваарилах" янз бүрийн алгоритмуудын "иж бүрдэл" юм.

Бусад олон статистикийн процедураас ялгаатай нь кластерийн шинжилгээний аргыг ихэнх тохиолдолд ангиудын талаар ямар нэгэн априори таамаглал байхгүй, гэхдээ судалгааны тодорхойлолтын шатанд байгаа тохиолдолд ашигладаг гэсэн үзэл бодол байдаг.

Анхаар!

Кластерийн шинжилгээ нь "хамгийн ач холбогдолтой шийдвэр"-ийг тодорхойлдог гэдгийг ойлгох хэрэгтэй.

Тиймээс, статистикийн ач холбогдлыг шалгах нь p-түвшин мэдэгдэж байгаа тохиолдолд ч (жишээлбэл, K-ийн аргад) үнэхээр хэрэглэгдэхгүй.

Кластерын техникийг олон төрлийн салбарт ашигладаг. Хартиган (1975) кластер шинжилгээний аргаар олж авсан үр дүнг агуулсан олон нийтлэгдсэн судалгааны тоймыг маш сайн харуулсан.

Жишээлбэл, анагаах ухааны салбарт өвчний бүлэглэл, өвчний эмчилгээ, өвчний шинж тэмдгүүд нь өргөн хэрэглэгддэг ангилал зүйд хүргэдэг.

Сэтгэцийн эмгэг судлалын салбарт паранойа, шизофрени гэх мэт шинж тэмдгүүдийн кластеруудыг зөв оношлох нь амжилттай эмчилгээ хийхэд маш чухал юм. Археологийн хувьд кластерийн шинжилгээг ашиглан судлаачид чулуун зэвсэг, оршуулгын объект гэх мэт ангилал зүй тогтоохыг оролдож байна.

Маркетингийн судалгаанд кластер шинжилгээний өргөн хэрэглээ байдаг. Ерөнхийдөө, мэдээллийн "уулсыг" цаашид боловсруулахад тохиромжтой бүлэгт ангилах шаардлагатай бол кластерийн шинжилгээ нь маш хэрэгтэй бөгөөд үр дүнтэй байдаг.

Модны бөөгнөрөл

Үндсэн зорилго хэсгийн жишээнд нэгдэх (модны бөөгнөрөл) алгоритмын зорилгыг тайлбарласан болно.

Энэ алгоритмын зорилго нь объектуудын хоорондын ижил төстэй байдал эсвэл зайг ашиглан объектуудыг (жишээлбэл, амьтдыг) хангалттай том кластер болгон нэгтгэх явдал юм. Ийм бөөгнөрөлийн ердийн үр дүн нь шаталсан мод юм.

Модны хэвтээ диаграммыг авч үзье. Диаграм нь ангийн объект бүрээс эхэлдэг (диаграммын зүүн талд).

Одоо та ямар объектууд өвөрмөц, юу нь бусдаас ялгарах шалгуурыг аажмаар (маш жижиг алхамаар) "сулруулж" байна гэж төсөөлөөд үз дээ.

Өөрөөр хэлбэл, хоёр ба түүнээс дээш объектыг нэг кластерт нэгтгэх шийдвэртэй холбоотой босгыг бууруулна.

Үүний үр дүнд та улам олон объектыг хооронд нь холбож, улам бүр өөр өөр элементүүдийн илүү олон кластеруудыг нэгтгэдэг.

Эцэст нь, сүүлчийн алхамд бүх объектуудыг нэгтгэдэг. Эдгээр диаграммд хэвтээ тэнхлэгүүд нь нэгтгэх зайг илэрхийлдэг (босоо дендрограммд босоо тэнхлэгүүд нь нэгтгэх зайг илэрхийлдэг).

Тиймээс, график дахь зангилаа бүрийн хувьд (шинэ кластер үүссэн) та харгалзах элементүүдийг шинэ нэг кластерт холбосон зайны хэмжээг харж болно.

Өгөгдөл нь хоорондоо ижил төстэй объектуудын кластерын хувьд тодорхой "бүтэцтэй" байвал энэ бүтэц нь шаталсан модонд янз бүрийн салбараар тусгагдах магадлалтай.

Холболтын аргаар амжилттай дүн шинжилгээ хийсний үр дүнд кластеруудыг (салбаруудыг) илрүүлж, тэдгээрийг тайлбарлах боломжтой болно.

Нэгдмэл эсвэл модны бөөгнөрөл хийх аргыг объект хоорондын ялгаа эсвэл зайтай кластер үүсгэхэд ашигладаг. Эдгээр зайг нэг хэмжээст эсвэл олон хэмжээст орон зайд тодорхойлж болно.

Жишээлбэл, хэрэв та кафед байгаа хоолны төрлийг ангилах шаардлагатай бол түүнд агуулагдах калорийн тоо, үнэ, амтыг субьектив үнэлгээ гэх мэтийг анхаарч үзэх боломжтой.

Олон хэмжээст орон зайд объект хоорондын зайг тооцоолох хамгийн шууд арга бол Евклидийн зайг тооцоолох явдал юм.

Хэрэв танд 2D эсвэл 3D зай байгаа бол энэ хэмжүүр нь орон зай дахь объектуудын хоорондох бодит геометрийн зай юм (объект хоорондын зайг соронзон хальсны хэмжүүрээр хэмжсэн мэт).

Гэсэн хэдий ч, нэгтгэх алгоритм нь түүнд "өгөгдсөн" зай нь бодит эсвэл өөр ямар нэгэн гарган авсан зайны хэмжигдэхүүн эсэх талаар "санаа тавьдаггүй" бөгөөд энэ нь судлаачийн хувьд илүү ач холбогдолтой юм; мөн судлаачдын хувьд тулгамдсан асуудал бол тодорхой хэрэглээнд тохирох аргыг сонгох явдал юм.

Евклидийн зай.Энэ бол хамгийн түгээмэл зай юм шиг санагддаг. Энэ нь ердөө л олон хэмжээст орон зай дахь геометрийн зай бөгөөд дараах байдлаар тооцоологддог.

Евклидийн зайг (болон түүний квадрат) стандартчилсан өгөгдлөөр биш харин анхны өгөгдлөөр тооцдог болохыг анхаарна уу.

Энэ нь тодорхой давуу талтай (жишээлбэл, шинэ объектыг шинжилгээнд оруулахад хоёр объектын хоорондох зай өөрчлөгддөггүй, энэ нь хэт давсан үзүүлэлт болж хувирдаг) үүнийг тооцоолох ердийн арга юм.

Анхаар!

Гэсэн хэдий ч, зайг тооцоолох тэнхлэгүүдийн хоорондын ялгаа нь зайд ихээхэн нөлөөлдөг. Жишээлбэл, хэрэв тэнхлэгүүдийн аль нэгийг сантиметрээр хэмжиж, дараа нь та үүнийг миллиметр болгон хөрвүүлбэл (утгуудыг 10-аар үржүүлбэл) координатаас тооцсон эцсийн Евклидийн зай (эсвэл Евклидийн зайны квадрат) болно. эрс өөрчлөгдөж, үүний үр дүнд кластерийн шинжилгээний үр дүн өмнөхөөсөө эрс ялгаатай байж болно.

Евклидийн зайны квадрат.Заримдаа та алслагдсан объектуудад илүү их жин өгөхийн тулд стандарт Евклидийн зайг квадрат болгохыг хүсч болно.

Энэ зайг дараах байдлаар тооцоолно.

Хотын блок зай (Манхэттэн зай).Энэ зай нь зүгээр л координат дээрх ялгааны дундаж юм.

Ихэнх тохиолдолд энэ зайны хэмжүүр нь ердийн Евклидийн зайтай ижил үр дүнд хүргэдэг.

Гэсэн хэдий ч, энэ хэмжүүрийн хувьд бие даасан том ялгааны нөлөөлөл багасч байгааг анхаарна уу (тэдгээр нь квадрат биш учраас). Манхэттэний зайг дараах томъёогоор тооцоолно.

Чебышев зай.Энэ зай нь хоёр объектыг аль нэг координатаараа (ямар нэг хэмжигдэхүүнээр) ялгаатай бол "өөр" гэж тодорхойлоход хэрэг болно. Чебышевын зайг дараахь томъёогоор тооцоолно.

Эрчим хүчний зай.Заримдаа харгалзах объектууд нь маш өөр байдаг хэмжээстэй холбоотой жинг аажмаар нэмэгдүүлэх эсвэл багасгахыг хүсдэг.

Үүнийг эрчим хүчний хуулийн зайг ашиглан хийж болно. Эрчим хүчний зайг дараахь томъёогоор тооцоолно.

Энд r ба p нь хэрэглэгчийн тодорхойлсон параметрүүд юм. Тооцооллын цөөн хэдэн жишээ нь энэ хэмжүүр хэрхэн "ажиллаж" байгааг харуулж чадна.

p параметр нь бие даасан координатын зөрүүг аажмаар жинлэх, r параметр нь объектын хоорондох том зайг аажмаар жинлэх үүрэгтэй. Хэрэв хоёр параметр - r ба p нь хоёр тэнцүү бол энэ зай нь Евклидийн зайтай давхцдаг.

Санал нийлэхгүй байгаа хувь.Энэ хэмжигдэхүүнийг өгөгдөл нь ангилсан тохиолдолд ашигладаг. Энэ зайг дараахь томъёогоор тооцоолно.

Холбоо эсвэл холбооны дүрэм

Эхний алхамд объект бүр тусдаа кластер байх үед эдгээр объектуудын хоорондох зайг сонгосон хэмжүүрээр тодорхойлно.

Гэсэн хэдий ч хэд хэдэн объектыг хооронд нь холбоход кластер хоорондын зайг хэрхэн тодорхойлох вэ гэсэн асуулт гарч ирдэг.

Өөрөөр хэлбэл, танд хоёр кластерт нэгдэх эсвэл холбох дүрэм хэрэгтэй. Энд янз бүрийн боломжууд бий: жишээлбэл, хоёр кластерын аль ч хоёр объект бие биендээ харгалзах холбоосын зайнаас илүү ойр байх үед та хоёр кластерыг хооронд нь холбож болно.

Өөрөөр хэлбэл, кластер хоорондын зайг тодорхойлохын тулд та "хамгийн ойрын хөршийн дүрэм" -ийг ашигладаг; энэ аргыг ганц холбоосын арга гэж нэрлэдэг.

Энэ дүрэм нь "fibrous" кластеруудыг бий болгодог, i.e. кластерууд нь зөвхөн бие биенээсээ илүү ойр байдаг бие даасан элементүүдээр "холбогдсон".

Эсвэл та бусад бүх онцлог хосуудаас хамгийн хол орших кластерт хөршүүдийг ашиглаж болно. Энэ аргыг бүрэн холбоосын арга гэж нэрлэдэг.

Кластерт нэгдэх өөр олон аргууд байдаг бөгөөд эдгээр нь дээр дурдсантай адил юм.

Нэг холболт (хамгийн ойрын хөршийн арга). Дээр дурдсанчлан, энэ аргаар хоёр кластерын хоорондох зайг өөр өөр кластер дахь хамгийн ойрын хоёр объектын (хамгийн ойрын хөрш) хоорондын зайгаар тодорхойлно.

Энэ дүрэм нь тодорхой утгаараа объектуудыг хооронд нь холбож кластер үүсгэх ёстой бөгөөд үүссэн кластерууд нь урт "мөр"-ээр илэрхийлэгдэх хандлагатай байдаг.

Бүрэн холболт (хамгийн алслагдсан хөршүүдийн арга).Энэ аргын хувьд кластеруудын хоорондох зайг өөр өөр кластер дахь аль ч хоёр объектын хоорондох хамгийн том зай гэж тодорхойлдог (өөрөөр хэлбэл "хамгийн алслагдсан хөршүүд").

Жинлээгүй хос дундаж.Энэ аргын хувьд хоёр өөр кластерын хоорондох зайг тэдгээрийн доторх бүх хос объектын хоорондох дундаж зайгаар тооцдог.

Энэ арга нь объектууд өөр өөр "төглөл" үүсгэх үед үр дүнтэй байдаг ч өргөтгөсөн ("гинж" төрлийн) кластеруудын хувьд адилхан сайн ажилладаг.

Sneath болон Sokal (1973) номондоо энэ аргыг арифметик дундажийг ашиглан жингүй хос бүлгийн арга гэж нэрлэхийн тулд UPGMA товчлолыг нэвтрүүлсэн болохыг анхаарна уу.

Хосоор жигнэсэн дундаж.Энэ арга нь жинлээгүй хос дундын аргатай адил бөгөөд зөвхөн тухайн кластеруудын хэмжээг (өөрөөр хэлбэл тэдгээрт агуулагдах объектын тоо) тооцоололд жинлэх хүчин зүйл болгон ашигладаг.

Иймээс санал болгож буй аргыг (өмнөхөөс илүү) кластерын хэмжээ тэгш бус гэж үзвэл ашиглах ёстой.

Снеат, Сокал (1973) нар энэ аргыг арифметик дундажийг ашиглан жигнэсэн хос бүлгийн арга гэж нэрлэхийн тулд WPGMA товчлолыг нэвтрүүлсэн.

Жингүй центроид арга. Энэ аргын хувьд хоёр кластерын хоорондох зайг тэдгээрийн хүндийн төвүүдийн хоорондох зай гэж тодорхойлдог.

Анхаар!

Снеат, Сокал (1973) нар UPGMC товчлолыг ашиглан энэ аргыг центроид дундажийг ашиглан жингүй хос бүлгийн арга гэж нэрлэдэг.

Жинлэсэн центроид арга (медиан). Энэ арга нь өмнөх аргатай адил бөгөөд кластерын хэмжээ хоорондын зөрүүг (өөрөөр хэлбэл тэдгээрийн доторх объектын тоог) харгалзан үзэхийн тулд жинг тооцоолоход ашигладаг.

Тиймээс, кластерийн хэмжээгээр мэдэгдэхүйц ялгаа байгаа бол (эсвэл сэжиглэж байгаа) энэ аргыг өмнөхөөсөө илүүд үздэг.

Снеат, Сокал (1973) нар WPGMC гэсэн товчлолыг центроид дундажийг ашиглан жигнэсэн хос бүлгийн арга гэж нэрлэсэн.

Тойргийн арга.Энэ арга нь кластер хоорондын зайг тооцоолохдоо ANOVA аргыг ашигладаг тул бусад бүх аргуудаас ялгаатай.

Энэ арга нь алхам бүрт үүсч болох хоёр (таамаг) кластерын квадратуудын нийлбэрийг (SS) багасгадаг.

Дэлгэрэнгүйг Тойрогоос (1963) олж болно. Ерөнхийдөө энэ арга нь маш үр дүнтэй мэт боловч жижиг кластер үүсгэх хандлагатай байдаг.

Өмнө нь энэ аргыг бөөгнөрөх ёстой "объектууд" -ын хувьд авч үзсэн. Бусад бүх төрлийн шинжилгээнд судлаачийн сонирхсон асуултыг ихэвчлэн ажиглалт эсвэл хувьсагчаар илэрхийлдэг.

Ажиглалт болон хувьсагчийн аль алинаар нь кластер хийх нь нэлээд сонирхолтой үр дүнд хүргэж болох нь харагдаж байна.

Жишээлбэл, эмнэлгийн судлаач зүрхний өвчтэй өвчтөнүүдийн нөхцөл байдлын (ажиглалтын) янз бүрийн шинж чанаруудын (хувьсагчийн) талаар мэдээлэл цуглуулж байна гэж төсөөлөөд үз дээ.

Судлаач ижил төстэй шинж тэмдэг бүхий өвчтөнүүдийн кластерийг тодорхойлохын тулд ажиглалтыг (өвчтөнүүдийн) цуглуулахыг хүсч болно.

Үүний зэрэгцээ судлаач ижил төстэй физик төлөвтэй холбоотой хувьсагчдын кластеруудыг тодорхойлохын тулд хувьсагчдын кластер хийхийг хүсч болно.e

Ажиглалт эсвэл хувьсагчдыг кластерлах эсэх талаар ярилцсаны дараа яагаад хоёр чиглэлд кластер хийж болохгүй гэж?

Cluster Analysis модуль нь үүнийг хийх үр дүнтэй хоёр талын нэгдэх процедурыг агуулдаг.

Гэсэн хэдий ч ажиглалт болон хувьсагч хоёулаа утга учиртай кластеруудыг илрүүлэхэд нэгэн зэрэг хувь нэмэр оруулах төлөвтэй байгаа нөхцөлд хоёр талын нэгдмэл байдлыг (харьцангуй ховор) ашигладаг.

Тиймээс, өмнөх жишээ рүү буцахдаа бид эмнэлгийн судлаач биеийн байдлын шинж чанарын тодорхой кластертай ижил төстэй өвчтөнүүдийн кластерийг тодорхойлох шаардлагатай гэж үзэж болно.

Хүлээн авсан үр дүнг тайлбарлахад хүндрэлтэй байгаа нь янз бүрийн кластеруудын ижил төстэй байдал нь хувьсагчдын дэд бүлгийн зарим ялгаанаас үүдэлтэй (эсвэл шалтгаан) байж болох юм.

Тиймээс үүссэн кластерууд нь угаасаа нэг төрлийн бус байдаг. Магадгүй энэ нь эхэндээ жаахан бүрхэг мэт санагдаж магадгүй юм; үнэндээ, тайлбарласан кластер шинжилгээний бусад аргуудтай харьцуулахад хоёр талын нэгдэл нь хамгийн бага хэрэглэгддэг арга байж магадгүй юм.

Гэсэн хэдий ч зарим судлаачид энэ нь хайгуулын өгөгдөлд дүн шинжилгээ хийх хүчирхэг хэрэгсэл санал болгодог гэж үздэг (дэлгэрэнгүй мэдээллийг Хартиганы энэ аргын тайлбарыг үзнэ үү (Хартиган, 1975).).

K гэдэг нь арга гэсэн үг

Энэ кластерын арга нь нэгдэл (модны бөөгнөрөл) болон хоёр талын нэгдэл зэрэг бөөгнөрөх аргуудаас эрс ялгаатай. Та аль хэдийн кластерын тооны талаар таамаглал дэвшүүлсэн гэж бодъё (ажиглалтаар эсвэл хувьсагчаар).

Та системд яг гурван кластер үүсгэхийг хэлж болно, ингэснээр тэдгээр нь аль болох ялгаатай байна.

K-Means алгоритм нь яг ийм төрлийн асуудлыг шийддэг. Ерөнхийдөө K-means арга нь аль болох хол зайтай яг K ялгаатай кластеруудыг байгуулдаг.

Биеийн байдлын жишээн дээр анагаах ухааны судлаач өөрийн эмнэлзүйн туршлагаасаа үндэслэн өвчтөнүүд нь ерөнхийдөө гурван өөр ангилалд багтдаг гэсэн "төгсгөл" байж болно.

Анхаар!

Хэрэв тийм бол кластер бүрийн физик үзүүлэлтүүдийн янз бүрийн хэмжигдэхүүнүүдийн арга хэрэгсэл нь судлаачийн таамаглалыг илэрхийлэх тоон аргыг (жишээлбэл, 1-р кластерт байгаа өвчтөнүүдэд 1-ийн өндөр параметр, 2-оос бага параметртэй гэх мэт) өгөх болно.

Тооцооллын үүднээс та энэ аргыг "урвуу" дисперсийн шинжилгээ гэж үзэж болно. Хөтөлбөр нь санамсаргүй байдлаар сонгогдсон K кластеруудаас эхэлж, дараа нь объектын харьяаллыг өөрчилнө:

  1. кластер доторх хэлбэлзлийг багасгах,
  2. кластер хоорондын хэлбэлзлийг дээд зэргээр нэмэгдүүлэх.

Энэ арга нь урвуу дисперсийн шинжилгээ (ANOVA)-тай төстэй бөгөөд ANOVA дахь ач холбогдлын тест нь бүлгийн дундаж нь өөр хоорондоо ялгаатай гэсэн таамаглалыг шалгахдаа бүлэг хоорондын болон бүлгийн доторх хэлбэлзлийг харьцуулдаг.

K-түлхүүр бүлэглэлд програм нь дисперсийн шинжилгээ (ANOVA) хийхдээ хамгийн чухал үр дүнд хүрэхийн тулд объектуудыг (жишээ нь, ажиглалт) нэг бүлгээс (кластер) нөгөөд шилжүүлдэг.

Ер нь K-дундлагын кластерын шинжилгээний үр дүнг гаргасны дараа кластерууд бие биенээсээ хэрхэн ялгаатай байгааг үнэлэхийн тулд хэмжээс бүрийн хувьд кластер бүрийн дундаж утгыг тооцоолж болно.

Шинжилгээнд ашигласан хэмжилтийн ихэнх нь биш юмаа гэхэд маш өөр арга хэрэгслийг авах нь хамгийн тохиромжтой.

Эх сурвалж: http://website/www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Объектуудыг шинж чанараар нь ангилах

Кластерын шинжилгээ (кластерын шинжилгээ) - объектуудыг шинж чанараар нь ангилах, объектын нийлбэрийг шалгуур үзүүлэлтийг тодорхойлох, тодорхой бүлгийн объектуудыг сонгоход ойрхон нэгэн төрлийн бүлэгт хуваах олон хэмжээст статистик аргуудын багц.

Кластер гэдэг нь тухайн объектуудын ижил төстэй эсвэл ялгаатай хэмжигдэхүүнд үндэслэн кластерийн шинжилгээний үр дүнд тодорхойлсон объектуудын бүлэг юм.

Объект нь ангилах шаардлагатай судалгааны тодорхой сэдвүүд юм. Ангилал дахь объектууд нь дүрмээр бол ажиглалт юм. Жишээлбэл, бүтээгдэхүүний хэрэглэгчид, улс орон эсвэл бүс нутаг, бүтээгдэхүүн гэх мэт.

Хэдийгээр хувьсагчаар кластер шинжилгээ хийх боломжтой. Олон хэмжээст кластерийн шинжилгээнд объектуудыг ангилах нь хэд хэдэн шалгуурын дагуу нэгэн зэрэг явагддаг.

Эдгээр нь кластерийн шинжилгээний аргаас хамааран тоон болон категорийн хувьсагч байж болно. Тиймээс кластерийн шинжилгээний гол зорилго нь түүвэр дэх ижил төстэй объектуудын бүлгийг олох явдал юм.

Кластерийн шинжилгээний олон хувьсах статистик аргуудын багцыг шаталсан арга (бөглөгдөх ба хуваах) болон шаталсан бус (k-дундаж арга, хоёр үе шаттай кластерийн шинжилгээ) гэж хувааж болно.

Гэсэн хэдий ч нийтээр хүлээн зөвшөөрөгдсөн аргуудын ангилал байдаггүй бөгөөд заримдаа кластер шинжилгээний аргууд нь шийдвэрийн мод, мэдрэлийн сүлжээ, ялгаварлан гадуурхах шинжилгээ, логистик регрессийг бий болгох аргуудыг агуулдаг.

Кластер шинжилгээний хамрах хүрээ нь олон талт байдлаас шалтгаалан маш өргөн юм. Кластер шинжилгээг эдийн засаг, маркетинг, археологи, анагаах ухаан, сэтгэл судлал, хими, биологи, төрийн удирдлага, филологи, антропологи, социологи болон бусад салбарт ашигладаг.

Кластер шинжилгээг ашиглах зарим жишээ энд байна:

  • анагаах ухаан - өвчний ангилал, тэдгээрийн шинж тэмдэг, эмчилгээний аргууд, өвчтөний бүлгүүдийн ангилал;
  • маркетинг - компанийн бүтээгдэхүүний шугамыг оновчтой болгох, зах зээлийг бараа бүтээгдэхүүн эсвэл хэрэглэгчдийн бүлэгт хуваах, боломжит хэрэглэгчийг тодорхойлох зорилтууд;
  • социологи - судалгаанд оролцогчдыг нэг төрлийн бүлэгт хуваах;
  • сэтгэцийн эмгэг - шинж тэмдгийн бүлгийг зөв оношлох нь амжилттай эмчилгээ хийхэд чухал үүрэг гүйцэтгэдэг;
  • биологи - бүлгээр организмын ангилал;
  • эдийн засаг - ОХУ-ын субьектүүдийг хөрөнгө оруулалтын сонирхолоор нь ангилах.

Эх сурвалж: http://website/www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analiz.html

Кластер шинжилгээний талаархи ерөнхий мэдээлэл

Кластер шинжилгээ нь янз бүрийн ангиллын алгоритмуудыг агуулдаг. Олон салбарын судлаачдын асуудаг нийтлэг асуулт бол ажиглагдсан өгөгдлийг харааны бүтцэд хэрхэн зохион байгуулах вэ?

Жишээлбэл, биологичид амьтдын ялгааг утга учиртай тайлбарлахын тулд өөр өөр төрөл зүйл болгон задлахыг зорьдог.

Кластерийн шинжилгээний даалгавар бол объектуудын анхны багцыг ижил төстэй, ойрхон объектуудын бүлэгт хуваах явдал юм. Эдгээр бүлгүүдийг кластер гэж нэрлэдэг.

Өөрөөр хэлбэл, кластерийн шинжилгээ нь объектыг шинж чанараар нь ангилах нэг арга юм. Ангиллын үр дүн нь утга учиртай тайлбартай байх нь зүйтэй юм.

Кластер шинжилгээний аргаар олж авсан үр дүнг янз бүрийн салбарт ашигладаг. Маркетингийн хувьд энэ нь өрсөлдөгчид болон хэрэглэгчдийн сегментчилэл юм.

Сэтгэцийн эмгэгийн хувьд паранойа, шизофрени гэх мэт шинж тэмдгүүдийг зөв оношлох нь амжилттай эмчилгээ хийхэд маш чухал юм.

Удирдлагын хувьд ханган нийлүүлэгчдийн ангилал, гэрлэлтийн ижил төстэй үйлдвэрлэлийн нөхцөл байдлыг тодорхойлох нь чухал юм. Социологийн хувьд судалгаанд оролцогчдыг нэг төрлийн бүлэгт хуваах. Багцын хөрөнгө оруулалтын хувьд хөрөнгийн зах зээлийн талаар олж авсан мэдээлэлд үндэслэн тухайн эрсдэлийн түвшинд хөрөнгө оруулалтын өгөөжийг нэмэгдүүлэх боломжийг олгодог оновчтой хөрөнгө оруулалтын багцыг бүрдүүлэхийн тулд үнэт цаасыг өгөөжийн хандлагын ижил төстэй байдлын дагуу бүлэглэх нь чухал юм. .

Ерөнхийдөө ийм төрлийн их хэмжээний мэдээллийг ангилж, цаашид боловсруулахад тохиромжтой хэлбэрээр үзүүлэх шаардлагатай бол кластерийн шинжилгээ нь маш хэрэгтэй бөгөөд үр дүнтэй байдаг.

Кластер шинжилгээ нь нэлээд их хэмжээний мэдээллийг авч үзэх, нийгэм-эдийн засгийн мэдээллийн томоохон массивыг шахаж авсаархан, нүдээр харуулах боломжийг олгодог.

Анхаар!

Кластер шинжилгээ нь цаг хугацааны цувааг тодорхойлоход чухал ач холбогдолтой юм эдийн засгийн хөгжил(жишээлбэл, эдийн засгийн ерөнхий коньюнктур).

Эндээс харгалзах үзүүлэлтүүдийн утгууд нэлээд ойрхон байсан үеүүдийг ялгаж, динамик нь хамгийн төстэй цаг хугацааны цувралын бүлгүүдийг тодорхойлох боломжтой.

Нийгэм, эдийн засгийн таамаглалын асуудлуудад кластерийн шинжилгээг бусад тоон аргуудтай (жишээлбэл, регрессийн шинжилгээтэй) хослуулах нь маш ирээдүйтэй юм.

Давуу болон сул талууд

Кластерийн шинжилгээ нь хэд хэдэн шинж чанараар тодорхойлогддог аливаа объектыг бодитой ангилах боломжийг олгодог. Үүнээс гарах хэд хэдэн ашиг тус байна:

  1. Үүссэн кластеруудыг тайлбарлаж болно, өөрөөр хэлбэл ямар төрлийн бүлгүүд үнэхээр оршин тогтнож байгааг тайлбарлах боломжтой.
  2. Бие даасан кластеруудыг устгаж болно. Энэ нь өгөгдлийн багцад тодорхой алдаа гарсан тохиолдолд ашигтай бөгөөд үүний үр дүнд бие даасан объектын үзүүлэлтүүдийн утгууд огцом хазайдаг. Кластерийн шинжилгээг ашиглахдаа ийм объектууд тусдаа кластерт ордог.
  3. Цаашид дүн шинжилгээ хийхийн тулд зөвхөн сонирхсон шинж чанартай кластеруудыг сонгож болно.

Бусад аргуудын нэгэн адил кластер шинжилгээ нь тодорхой сул тал, хязгаарлалттай байдаг. Ялангуяа кластерын бүтэц, тоо нь сонгосон хуваалтын шалгуураас хамаарна.

Анхны өгөгдлийн массивыг илүү авсаархан хэлбэрт оруулахад тодорхой гажуудал үүсч, кластерийн параметрүүдийн ерөнхий утгын шинж чанараар солигдсоны улмаас бие даасан объектуудын бие даасан шинж чанарууд алдагдаж болно.

Арга зүй

Одоогийн байдлаар зуу гаруй төрлийн кластерийн алгоритмууд мэдэгдэж байна. Тэдний олон янз байдал нь янз бүрийн тооцооллын аргуудаас гадна кластерын үндэс болсон өөр өөр ойлголтоор тайлбарлагддаг.

Statistica багц нь дараах кластерийн аргуудыг хэрэгжүүлдэг.

  • Шаталсан алгоритмууд - модны бөөгнөрөл. Шаталсан алгоритмууд нь дараалсан кластер хийх санаан дээр суурилдаг. Эхний шатанд объект бүрийг тусдаа кластер гэж үздэг. Дараагийн алхамд хамгийн ойр байрлах кластеруудын заримыг тусдаа кластер болгон нэгтгэнэ.
  • K- арга. Энэ аргыг хамгийн түгээмэл хэрэглэдэг. Энэ нь кластерийн шинжилгээний лавлагааны аргууд гэж нэрлэгддэг бүлэгт багтдаг. Кластерын тоог хэрэглэгч өөрөө тогтоодог.
  • Хоёр талын холбоо. Энэ аргыг ашиглах үед кластерийг хувьсагч (багана) болон ажиглалтын үр дүнгээр (мөр) нэгэн зэрэг гүйцэтгэдэг.

Хувьсагч болон ажиглалт дээр нэгэн зэрэг кластер хийх нь утга учиртай үр дүнг өгнө гэж найдаж байгаа тохиолдолд хоёр талын нэгдэх процедурыг гүйцэтгэдэг.

Процедурын үр дүн нь хувьсах хэмжигдэхүүн, тохиолдлын талаархи статистик үзүүлэлтүүд, мөн өгөгдлийн утгыг өнгөөр ​​​​кодлосон хоёр хэмжээст өнгөт диаграм юм.

Өнгөний хуваарилалтаар та нэг төрлийн бүлгүүдийн талаархи ойлголттой болно.

Хувьсагчдыг хэвийн болгох

Эхний багц объектыг кластер болгон хуваах нь объектуудын хоорондох зайг тооцоолох, объектын сонголттой холбоотой бөгөөд тэдгээрийн хоорондох зай нь бүх боломжит хамгийн бага нь юм.

Хамгийн түгээмэл хэрэглэгддэг зүйл бол бид бүгдэд танил болсон Евклидийн (геометрийн) зай юм. Энэ хэмжүүр нь орон зай дахь объектуудын ойролцоо байдлын талаархи зөн совингийн санаатай нийцдэг (объект хоорондын зайг соронзон хальсны хэмжүүрээр хэмжсэн мэт).

Гэхдээ өгөгдсөн хэмжүүрийн хувьд объект хоорондын зайд масштабын өөрчлөлт (хэмжих нэгж) хүчтэй нөлөөлж болно. Жишээлбэл, шинж чанаруудын аль нэгийг миллиметрээр хэмжиж, дараа нь түүний утгыг сантиметр болгон хөрвүүлбэл объект хоорондын Евклидийн зай эрс өөрчлөгдөнө. Энэ нь кластерийн шинжилгээний үр дүн өмнөхөөсөө эрс ялгаатай байх болно.

Хэрэв хувьсагчдыг өөр өөр хэмжигдэхүүнээр хэмждэг бол тэдгээрийг урьдчилан хэвийн болгох, өөрөөр хэлбэл тэдгээрийг хэмжээсгүй хэмжигдэхүүн болгон хувиргах анхны өгөгдлийг хувиргах шаардлагатай.

Хэвийн байдал нь анхны орон зайн геометрийг ихээхэн гажуудуулж, кластерын үр дүнг өөрчлөх боломжтой

Statistica багцад аливаа x хувьсагчийг дараах томъёоны дагуу хэвийн болгодог.

Үүнийг хийхийн тулд хувьсагчийн нэр дээр хулганы баруун товчийг дараад нээгдэх цэснээс: Fill/ Standardize Block/ Standardize Columns командын дарааллыг сонгоно. Нормчилсан хувьсагчийн утгууд тэгтэй тэнцүү болж, хэлбэлзэл нь нэгтэй тэнцүү болно.

Statistica дахь K- гэсэн утгатай арга

K-means арга нь олон тооны объектыг бие биенээсээ хамгийн их зайд байрлах өөр өөр кластеруудын өгөгдсөн тооны K болгон хуваадаг.

Ер нь K-дундаж кластерын шинжилгээний үр дүнг гаргасны дараа кластерууд бие биенээсээ хэрхэн ялгаатай байгааг үнэлэхийн тулд хэмжээс бүрийн хувьд кластер бүрийн дундаж утгыг тооцоолж болно.

Шинжилгээнд ашигласан ихэнх хэмжилтийн хувьд та маш өөр арга хэрэгслийг авах нь хамгийн тохиромжтой.

Хэмжээ тус бүрээр олж авсан F-статистикийн утгууд нь харгалзах хэмжээс нь кластеруудыг хэр сайн ялгаж байгааг харуулах өөр нэг үзүүлэлт юм.

Жишээлбэл, нэг аж ахуйн нэгжийн 17 ажилтны ажил мэргэжлийн чанарын үзүүлэлтэд сэтгэл ханамжийн талаархи санал асуулгын үр дүнг авч үзье. Хүснэгтэнд асуулгын асуултын хариултыг арван онооны системээр оруулсан болно (1 нь хамгийн бага оноо, 10 нь дээд тал нь).

Хувьсагчийн нэрс нь дараах асуултын хариулттай тохирч байна.

  1. SLT - хувийн зорилго, байгууллагын зорилгын хослол;
  2. OSO - цалин хөлсний шударга байдлын мэдрэмж;
  3. TBD - байшингийн нутаг дэвсгэрийн ойролцоо байдал;
  4. PEW - эдийн засгийн сайн сайхан байдлын мэдрэмж;
  5. CR - ажил мэргэжлийн өсөлт;
  6. ZhSR - ажлын байрыг өөрчлөх хүсэл;
  7. OSB бол нийгмийн сайн сайхан байдлын мэдрэмж юм.

Энэ өгөгдлийг ашиглан ажилчдыг бүлгүүдэд хувааж, тус бүрдээ хамгийн үр дүнтэй хяналтын хөшүүргийг сонгох шаардлагатай.

Үүний зэрэгцээ, бүлгүүдийн хоорондын ялгаа нь тодорхой байх ёстой бөгөөд бүлгийн дотор санал асуулгад оролцогчид аль болох ижил төстэй байх ёстой.

Өнөөдрийг хүртэл ихэнх социологийн судалгаанууд зөвхөн саналын хувийг өгдөг: эерэг хариултуудын гол тоо, эсвэл сэтгэл хангалуун бус байгаа хүмүүсийн хувийг харгалзан үздэг боловч энэ асуудлыг системтэйгээр авч үздэггүй.

Ихэнх тохиолдолд судалгаа нь нөхцөл байдлын чиг хандлагыг харуулдаггүй. Зарим тохиолдолд "тэмдэг" эсвэл "эсрэг" байгаа хүмүүсийн тоог биш харин зайг эсвэл ижил төстэй байдлын хэмжүүрийг тоолох, өөрөөр хэлбэл ижил төстэй хүмүүсийн бүлгийг тодорхойлох шаардлагатай байдаг.

Кластер шинжилгээний процедурыг судалгааны мэдээлэлд үндэслэн зарим шинж чанаруудын бодит харилцааг тодорхойлж, үүн дээр үндэслэн тэдгээрийн хэв шинжийг бий болгоход ашиглаж болно.

Анхаар!

Кластерийн шинжилгээний процедуртай ажиллахдаа социологчийн априори таамаглал байгаа нь зайлшгүй нөхцөл биш юм.

Statistica программд кластерийн шинжилгээг дараах байдлаар гүйцэтгэдэг.

Кластерын тоог сонгохдоо дараахь зүйлийг баримтална уу: боломжтой бол кластерын тоо хэт их байж болохгүй.

Өгөгдсөн кластерын объектуудыг холбосон зай нь боломжтой бол энэ кластерт өөр зүйл нэгдэх зайнаас хамаагүй бага байх ёстой.

Кластерын тоог сонгохдоо ихэнхдээ нэгэн зэрэг хэд хэдэн зөв шийдэл байдаг.

Жишээлбэл, асуулгын асуултын хариулт нь энгийн ажилчид болон аж ахуйн нэгжийн удирдлагатай хэрхэн уялдаж байгааг бид сонирхож байна. Тиймээс бид K=2 гэж сонгоно. Цаашид сегментчилэхийн тулд та кластерын тоог нэмэгдүүлэх боломжтой.

  1. кластерын төвүүдийн хоорондох хамгийн их зайтай ажиглалтыг сонгох;
  2. зайг ангилах, тогтмол давтамжтайгаар ажиглалтыг сонгох (анхдагч тохиргоо);
  3. Эхний ажиглалтын төвүүдийг авч, бусад объектуудыг тэдэнд хавсаргана.

Сонголт 1 нь бидний зорилгод тохиромжтой.

Олон тооны кластерийн алгоритмууд нь ихэвчлэн өгөгдөлд үл хамаарах бүтцийг "ногдуулах" бөгөөд судлаачийн анхаарлыг сарниулдаг. Тиймээс хэд хэдэн кластер шинжилгээний алгоритмуудыг хэрэглэж, алгоритмын үр дүнгийн ерөнхий үнэлгээнд үндэслэн дүгнэлт гаргах нь туйлын чухал юм.

Шинжилгээний үр дүнг гарч ирэх харилцах цонхонд харж болно:

Хэрэв та "График" гэсэн табыг сонговол кластерын төвүүдийн координатын графикийг зурах болно.


Энэ график дээрх тасархай шугам бүр нь аль нэг кластертай тохирч байна. Графикийн хэвтээ тэнхлэгийн хуваагдал бүр нь шинжилгээнд орсон хувьсагчийн аль нэгэнд тохирч байна.

Босоо тэнхлэг нь кластер бүрт багтсан объектуудын хувьсагчийн дундаж утгатай тохирч байна.

Бараг бүх асуудлаар хоёр бүлгийн хүмүүсийн үйлчилгээний карьерт хандах хандлага ихээхэн ялгаатай байгааг тэмдэглэж болно. Зөвхөн нэг асуудалд бүрэн санал нэгтэй байдаг - нийгмийн сайн сайхан байдлын утгаараа (OSB), эс тэгвээс энэ нь дутагдалтай (10 онооноос 2.5 оноо).

1-р кластер нь ажилчдыг, 2-р кластер нь менежментийг төлөөлдөг гэж үзэж болно. Менежерүүд хувийн зорилго, байгууллагын зорилго (SOL) хосолсон карьерын хөгжилд (CR) илүү сэтгэл хангалуун байдаг.

Тэд эдийн засгийн сайн сайхан байдлын мэдрэмж (SEW) болон цалингийн тэгш байдлын мэдрэмж (SWA) өндөр байдаг.

Тэд ажилчдаас илүү гэртэй ойр байх талаар санаа зовдоггүй нь тээврийн асуудал багатай байдагтай холбоотой байх. Мөн менежерүүд ажлаа солих хүсэл багатай байдаг (JSR).

Хэдийгээр ажилчид хоёр ангилалд хуваагддаг ч ихэнх асуултанд харьцангуй ижил хариулт өгдөг. Өөрөөр хэлбэл, хэрэв ямар нэг зүйл ажилчдын ерөнхий бүлэгт тохирохгүй бол ахлах удирдлагад ч тохирохгүй, мөн эсрэгээр.

Графикуудын уялдаа холбоо нь нэг бүлгийн сайн сайхан байдал нөгөө бүлгийн сайн сайхан байдалд тусгагдсан гэж дүгнэх боломжийг бидэнд олгодог.

1-р кластер нь байшингийн нутаг дэвсгэрийн ойролцоо байдалд сэтгэл хангалуун бус байна. Энэ бүлэг нь хотын янз бүрийн хэсгээс аж ахуйн нэгжид ихэвчлэн ирдэг ажилчдын гол хэсэг юм.

Тиймээс ашгийнхаа тодорхой хэсгийг тухайн аж ахуйн нэгжийн ажилчдын орон сууц барихад зориулахыг дээд удирдлагад санал болгох боломжтой.

Хоёр бүлгийн хүмүүсийн үйлчилгээний ажил мэргэжилд хандах хандлагад мэдэгдэхүйц ялгаа ажиглагдаж байна. Ажил мэргэжлийн өсөлтөд сэтгэл хангалуун байгаа, хувийн зорилго, байгууллагын зорилгын давхцал өндөр байгаа ажилтнууд ажлаа солих хүсэлгүй, ажлынхаа үр дүнд сэтгэл ханамжтай байдаг.

Харин эсрэгээрээ ажлаа солих хүсэлтэй, ажлынхаа үр дүнд сэтгэл дундуур байгаа ажилтнууд дээрх үзүүлэлтүүдэд сэтгэл хангалуун бус байдаг. Дээд удирдлага одоогийн нөхцөл байдалд онцгой анхаарал хандуулах ёстой.

Шинж чанар тус бүрийн дисперсийн шинжилгээний үр дүнг дисперсийн шинжилгээ товчийг дарснаар харуулна.

Кластерын төвөөс (SS доторх) объектуудын хазайлтын квадратуудын нийлбэр ба кластерын төвүүдийн хоорондох хазайлтын квадратуудын нийлбэр (SS хооронд), F-статистикийн утга ба p-ийн ач холбогдлын түвшинг харуулав.

Анхаар!

Манай жишээн дээр хоёр хувьсагчийн ач холбогдлын түвшин нэлээд их байгаа нь цөөн тооны ажиглалттай холбоотой гэж тайлбарладаг. Судалгааны бүрэн хувилбарт, бүтээлээс олж болохуйц, кластер төвүүдийн хэрэгслийн тэгш байдлын талаархи таамаглалыг 0.01-ээс бага ач холбогдлын түвшинд няцаасан болно.

Ангилал ба зайг хадгалах товчлуур нь кластер бүрт багтсан объектуудын тоо болон кластер бүрийн төв хүртэлх объектуудын зайг харуулдаг.

Хүснэгтэнд CLUSTER дугаар бүхий кластеруудыг бүрдүүлж буй тохиолдлын дугаарууд (CASE_NO) болон кластер бүрийн төвөөс (DISTANCE) зайг харуулав.

Кластерт хамаарах объектуудын талаарх мэдээллийг файлд бичиж, цаашдын шинжилгээнд ашиглаж болно. Энэ жишээн дээр санал асуулгын үр дүнг харьцуулах нь 1-р кластер нь ихэвчлэн энгийн ажилчдаас, 2-р кластер нь менежерүүдээс бүрддэг болохыг харуулж байна.

Судалгааны үр дүнг боловсруулахдаа кластерийн шинжилгээ нь дундаж үзүүлэлтүүдийн гистограмм байгуулах эсвэл янз бүрийн үзүүлэлтүүдэд сэтгэл ханамжтай байгаа хүмүүсийн хувийн жинг тооцоолох замаар үр дүнд хүрэх боломжгүй дүгнэлт гаргах боломжийг олгодог хүчирхэг арга болж хувирсан нь харагдаж байна. ажлын амьдралын чанар.

Модны бөөгнөрөл нь шаталсан алгоритмын жишээ бөгөөд түүний зарчим нь эхлээд хамгийн ойр, дараа нь бие биенээсээ хол байгаа элементүүдийг дараалан кластер болгон нэгтгэх явдал юм.

Эдгээр алгоритмуудын ихэнх нь ижил төстэй (зай) матрицаас эхэлдэг бөгөөд тус бүр элемент бүрийг эхлээд тусдаа кластер гэж үздэг.

Кластерын шинжилгээний модулийг ачаалж, Нэгдэх (модны бөөгнөрөл)-ийг сонгосны дараа кластерын параметр оруулах цонхонд дараах параметрүүдийг өөрчилж болно.

  • Анхны өгөгдөл (Оролт). Эдгээр нь судлагдсан өгөгдлийн матриц (Түүхий өгөгдөл) болон зайны матриц (Distance матриц) хэлбэртэй байж болно.
  • Объектийн төлөв байдлыг дүрсэлсэн бөөгнөрөл (Кластер) ажиглалт (Тохиолдол (түүхий)) эсвэл хувьсагч (Хувьсагч (багана)).
  • Зайны хэмжүүр. Эндээс та дараах хэмжүүрүүдийг сонгож болно: Евклидийн зай, Дөрвөлжин евклидийн зай, Хот-блок (Манхэттен) зай, Чебычевын зайны хэмжүүр, Хүч ...), санал нийлэхгүй байгаа хувь (Зөвшөөрөлгүй хувь).
  • Кластерын арга (Нэгдлийн (холбох) дүрэм). Дараах сонголтуудыг энд хийх боломжтой: Нэг холбоос, Бүрэн холбоос, Жинлээгүй хос бүлгийн дундаж, Жинлээгүй хос бүлгийн дундаж, Жингүй хос бүлгийн төв, Жинлэгдсэн хос бүлгийн төв (медиан), Вардын арга.

Кластерийн үр дүнд хэвтээ эсвэл босоо дендрограмм - объект ба кластеруудын хоорондох зайг дараалан нэгтгэх үед тодорхойлогддог графикийг бүтээдэг.

Графикийн модны бүтэц нь сонгосон босго буюу кластер хоорондын өгөгдсөн зайнаас хамааран кластеруудыг тодорхойлох боломжийг олгодог.

Үүнээс гадна, анхны объектуудын хоорондох зайны матриц (Distance matrix) харагдана; эх объект бүрийн дундаж ба стандарт хазайлт (Ялгах статистик).

Үзсэн жишээний хувьд бид анхдагч тохиргоотой хувьсагчдын кластер шинжилгээг хийх болно. Үүссэн дендрограммыг зурагт үзүүлэв.


Дендрограммын босоо тэнхлэг нь объектын хоорондох зай, объект, кластер хоорондын зайг зурдаг. Тиймээс SEB ба OSD хувьсагчдын хоорондох зай тавтай тэнцүү байна. Эхний шатанд эдгээр хувьсагчдыг нэг кластерт нэгтгэдэг.

Дендрограммын хэвтээ сегментүүдийг өгөгдсөн кластерийн алхамд сонгосон босго зайд харгалзах түвшинд зурна.

Графикаас харахад "Ажлаа өөрчлөх хүсэл" (JSR) асуулт нь тусдаа кластер үүсгэдэг. Ер нь хаана ч хамаагүй хог хаях хүсэл хүн болгонд адилхан зочилдог. Цаашилбал, тусдаа кластер бол гэрт ойр орших нутаг дэвсгэрийн асуудал юм (LHB).

Ач холбогдлын хувьд 2-р байранд орсон нь К-ийн аргыг ашиглан хийсэн судалгааны үр дүнд орон сууц барих шаардлагатай гэсэн дүгнэлтийг баталж байна.

Эдийн засгийн сайн сайхан байдлын мэдрэмж (PEW) болон цалингийн тэгш байдал (PWA) хосолсон - энэ бол эдийн засгийн асуудлын блок юм. Ажил мэргэжлийн ахиц дэвшил (CR) болон хувийн зорилго, байгууллагын зорилго (COL) -ийн хослолыг мөн нэгтгэдэг.

Бусад кластерийн аргууд, түүнчлэн бусад төрлийн зайг сонгох нь дендрограммд мэдэгдэхүйц өөрчлөлт гарахад хүргэдэггүй.

Үр дүн:

  1. Кластер шинжилгээ нь аливаа сэдвийн хүрээнд эрэл хайгуулын өгөгдөлд дүн шинжилгээ хийх, статистик судалгаа хийх хүчирхэг хэрэгсэл юм.
  2. Statistica хөтөлбөр нь кластерийн шинжилгээний шаталсан болон бүтцийн аргыг хоёуланг нь хэрэгжүүлдэг. Энэхүү статистикийн багцын давуу тал нь графикийн боломжуудтай холбоотой юм. Судалгаанд хамрагдсан хувьсагчдын орон зайд олж авсан кластеруудын хоёр хэмжээст ба гурван хэмжээст график дүрслэл, түүнчлэн объектуудыг бүлэглэх шаталсан журмын үр дүнг өгсөн болно.
  3. Кластер шинжилгээний хэд хэдэн алгоритмыг хэрэглэж, алгоритмын үр дүнгийн ерөнхий үнэлгээнд үндэслэн дүгнэлт гаргах шаардлагатай.
  4. Кластерын шинжилгээг янз бүрийн аргаар хийж, үр дүнг нь харьцуулж нийтлэг зүй тогтолыг олж, кластер хийх аргаас үл хамааран тогтвортой кластер олдвол амжилттай гэж үзэж болно.
  5. Кластер шинжилгээ нь асуудлын нөхцөл байдлыг тодорхойлж, тэдгээрийг шийдвэрлэх арга замыг тоймлох боломжийг олгодог. Иймд параметрийн бус статистикийн энэ аргыг системийн шинжилгээний салшгүй хэсэг гэж үзэж болно.

кластерийн шинжилгээобъектын ангиллыг бий болгох янз бүрийн албан ёсны журам гэж нэрлэдэг. Кластер анализыг хөгжүүлэх тэргүүлэх шинжлэх ухаан бол биологи байв. Кластер шинжилгээний сэдвийг (Англи хэлнээс "кластер" - багц, багц, бүлэг) 1939 онд сэтгэл судлаач Роберт Трайон боловсруулсан. Кластер шинжилгээний сонгодог бүтээл бол Америкийн ангилал зүйч Роберт Сокал, Питер Снит нар юм. Тэдний энэ чиглэлээр хийсэн хамгийн чухал ололтуудын нэг бол 1963 онд хэвлэгдсэн "Тоон ангилал зүйн зарчмууд" ном юм. Зохиогчдын гол санааны дагуу ангиллыг объектын ижил төстэй байдал, хамаарлын талаархи муу албан ёсны дүгнэлтийн холимог дээр үндэслэх ёсгүй, харин ижил төстэй байдлын математик тооцооллын үр дүнг албан ёсны боловсруулалтын үр дүнд үндэслэн ангилах ёстой. / ангилж буй объектуудын ялгаа. Энэ даалгаврыг биелүүлэхийн тулд зохиогчид боловсруулсан зохих журам шаардлагатай байв.

Кластер шинжилгээний үндсэн үе шатууд нь дараах байдалтай байна.
1. харьцуулах объектыг сонгох;
2. харьцуулах шинж чанаруудын багцыг сонгох, эдгээр шинж тэмдгүүдийн дагуу объектын тодорхойлолт;
3. сонгосон зүйлийн дагуу объектын ижил төстэй байдлын хэмжигдэхүүнийг (эсвэл объектын ялгааны хэмжүүр) тооцоолох хэмжүүр;
4. аль нэгийг ашиглан объектуудыг кластер болгон бүлэглэх нэгтгэх журам;
5. үүссэн кластерийн шийдлийн хэрэглээг шалгах.

Тиймээс кластерын журмын хамгийн чухал шинж чанарууд нь хэмжигдэхүүнийг сонгох (олон тооны өөр өөр хэмжигдэхүүнийг өөр өөр нөхцөлд ашигладаг) ба эвлэлийн журмыг сонгох (мөн энэ тохиолдолдолон янзын сонголтууд). Нэг эсвэл өөр хэмжүүр, нэгдэх журам нь өөр өөр нөхцөл байдалд илүү тохиромжтой боловч тодорхой хэмжээгээр тэдгээрийн хоорондох сонголт нь амт, уламжлалын асуудал юм. Кластер, хуримтлал ба объектив байдлын химера нийтлэлд илүү дэлгэрэнгүй тайлбарласнаар кластерийн шинжилгээ нь судлаачийн дур зоргоороо ямар ч хамааралгүй ангиллыг бий болгоход хүргэнэ гэсэн итгэл найдвар нь боломжгүй болж хувирав. Кластерийн шинжилгээг ашиглан судалгааны таван үе шатаас зөвхөн 4-р үе шат нь эцсийн үр дүнд нөлөөлөх их бага хэмжээгээр дур зоргоороо шийдвэр гаргахтай холбоогүй болно. Объектуудын сонголт, функцүүдийн сонголт, хэмжигдэхүүнүүдийн сонголт, нэгтгэх процедурын хамт эцсийн үр дүнд ихээхэн нөлөөлдөг. Энэхүү сонголт нь судалгааны тодорхой ба далд сонголт, хүлээлт зэрэг олон нөхцөл байдлаас шалтгаалж болно. Харамсалтай нь энэ нөхцөл байдал нь зөвхөн кластерийн шинжилгээний үр дүнд нөлөөлдөггүй. Бүх "объектив" аргууд нь ижил төстэй асуудлуудтай тулгардаг, үүнд бүгдкладистик аргууд.

Объектуудын багц, функцүүдийн багц, хэмжүүрийн төрөл, нэгдэх процедурыг сонгох замаар олох цорын ганц зөв шийдэл байдаг уу? Үгүй Үүнийг батлахын тулд бид өмнөх догол мөрөнд өгөгдсөн нийтлэлийн хэсгийг толилуулж байна.

"Үнэн хэрэгтээ бид аль объектууд хоорондоо илүү төстэй, аль нь илүү ялгаатай вэ гэсэн асуултад үргэлж хатуу хариулж чадахгүй. Харамсалтай нь, ангилсан объектуудын ижил төстэй болон ялгаатай байдлын хэмжүүрийг сонгоход нийтээр хүлээн зөвшөөрөгдсөн ("объектив" гэх мэт) шалгуур байдаггүй.

Аль объект А объекттой илүү төстэй вэ: B эсвэл C? Хэрэв бид зайг ижил төстэй хэмжигдэхүүн болгон ашигладаг бол C: |AC| дээр<|AB|. А если полагаться на корреляцию между показанными на рисунке признаками (которую можно описать как угол между вектором, идущим к объекту из начала координат, и осью абсцисс), то на B: . Хэрхэн зөв болох вэ? Мөн ганц зөв хариулт байдаггүй. Нэг талаас, насанд хүрсэн бах нь насанд хүрсэн мэлхий (хоёулаа насанд хүрсэн), нөгөө талаас залуу бах (хоёул бах) шиг харагддаг! Зөв хариулт нь бидний юуг илүү чухал гэж үзэхээс хамаарна.".

Кластер шинжилгээ нь орчин үеийн шинжлэх ухаанд хамгийн өргөн хэрэглээг олсон. Харамсалтай нь үүнийг ашиглаж байгаа ихэнх тохиолдолд бусад аргыг ашиглах нь дээр. Ямар ч тохиолдолд мэргэжлийн биологичид кластерийн шинжилгээний үндсэн логикийг тодорхой ойлгох хэрэгтэй бөгөөд зөвхөн энэ тохиолдолд л үүнийг хангалттай тохиолдолд ашиглах боломжтой бөгөөд өөр аргыг сонгох нь оновчтой үед үүнийг хэрэглэхгүй байх болно. .

8.2. "Хуруун дээр" кластер шинжилгээний жишээ

Кластер шинжилгээний ердийн логикийг тайлбарлахын тулд түүний жишээг авч үзье. Хамгийн энгийн хэлбэрийн 6 шинж чанараар тодорхойлогддог 6 объектын багцыг (үсгээр тэмдэглэсэн) авч үзье: хувилбар, шинж чанар (+) ба шинж чанаргүй (-) гэсэн хоёр утгын аль нэгийг нь авна. Хүлээн зөвшөөрөгдсөн шинж чанаруудын дагуу объектуудын тайлбарыг "тэгш өнцөгт" матриц гэж нэрлэдэг. Манай тохиолдолд бид 6 × 6 матрицын тухай ярьж байна, өөрөөр хэлбэл. үүнийг нэлээд "дөрвөлжин" гэж үзэж болох боловч ерөнхий тохиолдолд дүн шинжилгээ хийх объектын тоо нь шинж чанаруудын тоотой тэнцүү биш байж болох бөгөөд "тэгш өнцөгт" матриц нь өөр өөр тооны мөр, баганатай байж болно. За тохируулцгаая" тэгш өнцөгт" матриц (объект/онцлогын матриц):

Объектуудын сонголт, тодорхой шинж чанарын дагуу тэдгээрийн тодорхойлолт нь кластерийн шинжилгээний эхний хоёр үе шаттай тохирч байна. Дараагийн шат нь ижил төстэй эсвэл ялгаатай матриц ("дөрвөлжин" матриц, объект/объект матриц) байгуулах явдал юм. Үүнийг хийхийн тулд бид хэмжигдэхүүнийг сонгох хэрэгтэй. Бидний жишээ бол нөхцөлтэй тул хамгийн энгийн хэмжигдэхүүнийг сонгох нь зүйтэй юм. А ба В объектуудын хоорондох зайг тодорхойлох хамгийн хялбар арга юу вэ? Тэдний хоорондох ялгааны тоог тоол. Таны харж байгаагаар А ба В объектууд 3 ба 5-р шинж чанараараа ялгаатай тул эдгээр хоёр объектын хоорондох зай нь хоёр нэгжтэй тохирч байна.

Энэ хэмжигдэхүүнийг ашиглан бид " квадрат" матриц (объект/объект матриц). Ийм матриц нь хоёр тэгш хэмтэй хагасаас бүрдэх бөгөөд эдгээрийн зөвхөн нэгийг нь дүүргэх боломжтой гэдгийг харахад хялбар байдаг.

Энэ тохиолдолд бид ялгаа матрицыг барьсан. Ижил төстэй матриц нь иймэрхүү харагдах бөгөөд зөвхөн байрлал бүрт хамгийн их зай (6 нэгж) ба объектуудын хоорондын зөрүүтэй тэнцүү утгатай байх болно. А ба В хосуудын хувьд ижил төстэй байдал нь мэдээжийн хэрэг 4 нэгж байх болно.

Аль хоёр объект бие биендээ хамгийн ойр байдаг вэ? B ба F, тэдгээр нь зөвхөн нэг онцлог шинж чанараараа ялгаатай. Кластер шинжилгээний мөн чанар нь ижил төстэй объектуудыг кластер болгон нэгтгэх явдал юм. B ба F объектуудыг кластерт нэгтгэх (BF). Үүнийг диаграм дээр харуулъя. Таны харж байгаагаар объектуудыг тэдгээрийн хоорондох зайд тохирсон түвшинд нэгтгэдэг.

Цагаан будаа. 8.2.1. 6 объектын нөхцөлт багцыг кластер болгох эхний алхам

Одоо манайд зургаа биш таван объект байна. Бид "квадрат" матрицыг сэргээдэг. Үүнийг хийхийн тулд объект бүрээс кластер хүртэлх зай ямар байхыг тодорхойлох хэрэгтэй. -аас зай А-аас В хүртэл 2 нэгж, А-аас F хүртэл 3 нэгж байв. А-аас ((bf)? Энд зөв хариулт алга. Эндээс эдгээр гурван объект бие биентэйгээ харьцуулахад хэрхэн байрлаж байгааг хараарай.

Цагаан будаа. 8.2.2. Гурван объектын харьцангуй байрлал

Магадгүй объектоос бүлэг хүртэлх зай нь тухайн объектоос тухайн бүлэгт хамгийн ойр байгаа объект хүртэлх зай юм, i.e..e., │A(BF) │=│AB │? Энэ логик таарч байна хамгийн их ижил төстэй байдлаар нэгдэх.

Эсвэл объектоос бүлэг хүртэлх зай нь тухайн объектоос тухайн бүлэгт хамгийн алслагдсан объект хүртэлх зай юм..e., │A(BF) │=│AF │? Энэ логик таарч байна хамгийн бага ижил төстэй нэгдэх.

Мөн объектоос бүлэг хүртэлх зай нь энэ объектоос бүлгийн объект тус бүр хүртэлх зайны арифметик дундаж, t гэж үзэж болно..e., │A(BF) │=(│AB │+│AF │)/2. Энэ шийдлийг гэж нэрлэдэг ижил төстэй байдлаар нэгдэх.

Эдгээр гурван шийдэл болон энд тайлбарлаагүй бусад олон тооны шийдлүүд бүгд зөв юм. Бидний даалгавар бол бидний өгөгдөлд хамаарах ангилалд илүү тохирох шийдлийг сонгох явдал юм. Хамгийн их ижил төстэй байдлаар хавсаргах нь эцэстээ урт, "тууз шиг" кластеруудад хүргэдэг. Хамгийн бага хэмжээгээр - бүлгүүдийн хуваагдал. Тайлбарласан гурван хувилбараас сонгохдоо биологийн хувьд дундаж ижил төстэй байдлаар элсэлтийг ихэвчлэн ашигладаг. Бид бас тэдгээрийг ашигладаг. Энэ тохиолдолд кластерын эхний алхамын дараа "дөрвөлжин" матриц иймэрхүү харагдах болно.

Одоо хамгийн ойрын хос объект нь D ба E. Тэднийг бас нэгтгэе.

Цагаан будаа. 8.2.3. 6 объектын нөхцөлт багцыг кластер болгох хоёр дахь алхам

Дөрвөн объектын "дөрвөлжин" матрицыг дахин бүтээцгээе.

Бид 2.5 түвшинд нэгдэх хоёр боломж байгааг харж байна: нэгдэх A-аас (BF) болон хавсралт (BF) (DE). Аль нь сонгох вэ?

Энэ сонголтыг хэрхэн хийх талаар бидэнд янз бүрийн сонголтууд бий. Үүнийг санамсаргүй байдлаар хийж болно. Та сонголт хийх боломжтой зарим албан ёсны дүрмийг баталж болно. Мөн аль шийдэл нь хамгийн сайн кластерийн сонголтыг өгөхийг харж болно. Сүүлийн сонголтыг ашиглацгаая. Эхлээд эхний боломжийг хэрэгжүүлье.

Цагаан будаа. 8.2.4. 6 объектын нөхцөлт багцыг кластерлах гурав дахь алхамын эхний хувилбар

Энэ сонголтыг сонгохдоо бид ийм "дөрвөлжин" 3 × 3 матрицыг бүтээх хэрэгтэй болно.

Хэрэв бид гурав дахь алхамын хоёр дахь хувилбарыг сонгосон бол дараах зурагтай байх байсан.

Цагаан будаа. 8.2.5. 6 объектын нөхцөлт багцыг кластерлах гурав дахь алхамын хоёр дахь хувилбар

Энэ нь дараах 3×3 матрицтай тохирч байна.

Үүссэн 3 × 3 матрицыг харьцуулж, хоёр дахь хувилбарт объектуудыг илүү нягт бүлэглэх боломжтой эсэхийг баталгаажуулах боломжтой. Кластерийн шинжилгээг ашиглан объектуудын ангилалыг бий болгохдоо бид ижил төстэй объектуудыг нэгтгэсэн бүлгүүдийг тодорхойлохыг хичээх хэрэгтэй. Бүлэг дэх объектуудын ижил төстэй байдал өндөр байх тусам ийм ангилал илүү сайн байдаг. Тиймээс бид гурав дахь кластерийн алхамын хоёр дахь хувилбарыг сонгоно. Мэдээжийн хэрэг, бид дараах алхмуудыг хийж болно (мөн эхний сонголтыг өөр хоёр дэд сонголт болгон хувааж болно), гэхдээ эцэст нь гурав дахь кластерийн алхамын хамгийн сайн сонголт нь Зураг дээр үзүүлсэнтэй яг адилхан гэдэгт бид итгэлтэй байх болно. 8.5. Бид үүн дээр зогсдог.

Энэ тохиолдолд дараагийн алхам бол объектуудыг нэгтгэх явдал юм A ба C зурагт үзүүлэв. 8.6.

Цагаан будаа. 8.2.6. Кластер хийх дөрөв дэх алхам

Бид 2 × 2 матрицыг бүтээдэг:

Одоо сонгох зүйл алга. Үлдсэн хоёр кластерыг шаардлагатай түвшинд нэгтгэнэ. "Мод" кластер барихад хүлээн зөвшөөрөгдсөн хэв маягийн дагуу өгөгдсөн онцлог шинж чанаруудтай объектуудын хоорондох хамгийн их зайд хүрэх өөр нэг "их бие" нэмж оруулъя.

Цагаан будаа. 8.2.7. Тав дахь болон эцсийн кластер хийх алхам

Үүссэн зураг нь модны график (орой болон тэдгээрийн хоорондох холболтын цуглуулга) юм. Энэ график нь түүнийг үүсгэсэн шугамууд хоорондоо огтлолцох байдлаар бүтээгдсэн (бид эдгээр уулзваруудыг "гүүр" гэж харуулсан). Объектуудын хоорондын харилцааны мөн чанарыг өөрчлөхгүйгээр графикийг огтлолцохгүй байхаар дахин бүтээж болно. Эдгээрийг Зураг дээр хийсэн. 8.2.8.

Цагаан будаа. 8.2.8. Модны графикийн эцсийн харагдах байдал нь кластерын үр дүнд олж авсан

Бидний нөхцөлт жишээний кластерийн шинжилгээ дууслаа. Бид юу авснаа л ойлгох хэрэгтэй.

8.3. Кластерийн шинжилгээний үндсэн хязгаарлалт ба сул талууд

Зурагт үзүүлсэн графикийг хэрхэн тайлбарлах вэ. 8.2.8? Ганц хариулт байхгүй. Энэ асуултад хариулахын тулд бид ямар өгөгдөл, ямар зорилгоор кластер хийсэн болохыг ойлгох хэрэгтэй. "Гадаргуу дээр" гэсэн дүгнэлт нь 6 объектын анхны багц гурван хосоос бүрддэг гэж бид бүртгэсэн гэсэн дүгнэлтэд оршдог. Үүссэн графикийг харахад үүнд эргэлзэхэд хэцүү байна. Гэсэн хэдий ч энэ дүгнэлт зөв үү?

Хамгийн анхны "дөрвөлжин" 6×6 матриц руу буцаж очоод Е объект нь D болон F объект хоёроос хоёр нэгжийн зайд байгаа эсэхийг шалгаарай. Эцсийн "мод" дээрх E ба D хоёрын ижил төстэй байдал тусгагдсан боловч Е объект F объекттой яг адилхан ойр байсан - ул мөргүй алдсан! Үүнийг хэрхэн тайлбарлах вэ?

Зурагт үзүүлсэн кластерын үр дүнд. 8.2.8, зайны мэдээлэл огт байхгүй│EF │, зөвхөн │DE │ ба │(BF)(DE) │ зайны тухай мэдээлэл байна!

"Тэгш өнцөгт" матриц бүр нь тодорхой хэмжүүр болон хавсралтын аргыг сонгосон тохиолдолд нэг "дөрвөлжин" матрицтай тохирч байна. Гэхдээ "дөрвөлжин" матриц бүр олон "тэгш өнцөгт" матрицтай тохирч болно. Шинжилгээний алхам бүрийн дараа өмнөх "квадрат" матриц бүр дараагийнхтай тохирч байгаа боловч дараагийнх нь дээр үндэслэн бид өмнөхийг нь сэргээж чадаагүй. Энэ нь кластерийн шинжилгээний алхам бүрт анхны олонлогийн олон талт байдлын талаархи мэдээллийн зарим хэсэг нь эргэлт буцалтгүй алдагддаг гэсэн үг юм.

Энэ нөхцөл байдал нь кластер шинжилгээний ноцтой сул талуудын нэг юм.

Кластерийн шинжилгээний өөр нэг дутагдалтай талыг өгүүлэлд дурдсан болно

© imht.ru, 2022
Бизнесийн үйл явц. Хөрөнгө оруулалт. Урам зориг. Төлөвлөлт. Хэрэгжилт