Laboratórium „Primer feltáró adatelemzés módszereinek alkalmazása adatbányászati ​​(DAM) problémák megoldásában az integrált Statistica rendszer segítségével. Leíró statisztika, csoportosítások, feltáró elemzés Főbb összetevők és tények

01.06.2024

Válasz:

Grafikus módszerekkel megtalálhatja a strukturálatlan adatkészletekben „rejtett” függőségeket, trendeket és torzításokat.

A képalkotó módszerek a következők:

Adatok bemutatása oszlop- és vonaldiagramok formájában többdimenziós térben;

Több kép átfedése és egyesítése;

Bizonyos feltételeknek megfelelő adatrészhalmazok azonosítása és címkézése;

Adatok alcsoportjainak felosztása vagy egyesítése egy gráfban;

Adatok összesítése;

Adatsimítás;

Piktogramok készítése;

Mozaikszerkezetek készítése;

Spektrális síkok, szintvonaltérképek; háromdimenziós képek dinamikus elforgatásának és dinamikus rétegzésének módszerei; bizonyos adathalmazok és adatblokkok kiválasztása stb.

A Statistica diagramjainak típusai:

§ kétdimenziós grafikonok (hisztogramok);

§ háromdimenziós grafika;

§ mátrixgráfok;

§ szerinti képrajzok.

Válasz:Ezek a diagramok kétdimenziós, háromdimenziós, háromdimenziós vagy n-dimenziós diagramok gyűjteményei (például hisztogramok, szórásdiagramok, vonaldiagramok, felületek, kördiagramok), egy-egy diagram a megfigyelések minden kiválasztott kategóriájához (részhalmazához).

A grafikon grafikonok, kördiagramok halmaza a kiválasztott változó minden egyes kategóriájához (2 nem – 2 nemenként).

A kategorizált adatok szerkezete hasonló módon feldolgozható. : például gyűltek össze a vásárlók statisztikái, és elemezni kell a vásárlási összeget különböző kategóriákban (férfiak-nők, idősek-érett-fiatalok).

A statisztikákban - hisztogramok, szórásdiagramok, vonaldiagramok, kördiagramok, 3D grafikonok, 3D hármas grafikonok

Mint látható, ennek a változónak általában minden csoportra (virágtípusra) van normális eloszlása.

5. Milyen információkhoz juthatunk az adatok természetéről a szórásdiagramok és a kategorizált szórásdiagramok elemzésével?

Válasz:

A szórásdiagramokat általában két változó (például a nyereség és a bérszámfejtés) közötti kapcsolat természetének feltárására használják, mivel sokkal több információt szolgáltatnak, mint a korrelációs együttható.



Ha feltételezzük, hogy az egyik paraméter a másiktól függ, akkor általában a független paraméter értékeit a vízszintes tengely mentén, a függő paraméter értékeit pedig a függőleges tengely mentén ábrázoljuk. A szórásdiagramokat a két változó közötti korreláció meglétének vagy hiányának kimutatására használjuk.

A diagramon jelölt minden pont két jellemzőt tartalmaz, például az egyén életkorát és jövedelmét, mindegyik a saját tengelyén. Ez gyakran segíthet kideríteni, hogy van-e szignifikáns statisztikai kapcsolat e jellemzők között, és milyen típusú függvényt érdemes kiválasztani. A

6. Milyen információk nyerhetők az adatok természetéről a hisztogramok és a kategorizált hisztogramok elemzéséből?

Válasz

: A hisztogramok a változó értékek gyakorisági eloszlásának vizsgálatára szolgálnak. Ez a gyakorisági eloszlás megmutatja, hogy az érdeklődésre számot tartó változó mely konkrét értékei vagy értéktartományai fordulnak elő leggyakrabban, mennyire különböznek ezek az értékek, a legtöbb megfigyelés az átlag körül helyezkedik-e el, az eloszlás szimmetrikus vagy aszimmetrikus, multimodális. (vagyis két vagy több csúcsa van), vagy unimodális stb. A hisztogramokat is szokták a megfigyelt és az elméleti vagy várható eloszlások összehasonlítása.



A kategorizált hisztogramok egy vagy több kategorizáló változó különböző értékeinek vagy logikai kategorizálási feltételek halmazainak megfelelő hisztogramok halmazai.

A hisztogram a statisztikai adatok grafikus formában történő bemutatásának módja - oszlopdiagram formájában. Megjeleníti a termék- vagy folyamatparaméterek egyedi méréseinek eloszlását. Néha gyakorisági eloszlásnak is nevezik, mivel a hisztogram egy objektum paramétereinek mért értékeinek előfordulási gyakoriságát mutatja.

Az egyes oszlopok magassága jelzi a paraméterértékek előfordulási gyakoriságát a kiválasztott tartományban, az oszlopok száma pedig a kiválasztott tartományok számát.

A hisztogram fontos előnye, hogy lehetővé teszi egy objektum mért minőségi paramétereinek változásaiban bekövetkezett trendek megjelenítését és azok eloszlási törvényének vizuális értékelését. Ezenkívül a hisztogram lehetővé teszi egy valószínűségi változó középpontjának, terjedésének és alakjának gyors meghatározását. A hisztogramot általában a mért paraméter értékeinek intervallumváltozásaira készítik.

7. Miben különböznek alapvetően a kategorizált gráfok a Statistica rendszer mátrixgráfjaitól?

Válasz:

A mátrixábrák is több diagramból állnak; itt azonban mindegyik ugyanazon a megfigyelésen alapul (vagy lehet), és a grafikonok egy vagy két listából származó változók összes kombinációjára vannak ábrázolva.

mátrix gráfok. A mátrix diagramok több változó közötti kapcsolatokat ábrázolják XY diagramok mátrixa formájában. A mátrixábra legelterjedtebb típusa a szórási mátrix, amely a korrelációs mátrix grafikus megfelelőjének tekinthető.

Mátrix Plots - Scatter Plots. Ez a típusú mátrixábra 2D szórásdiagramokat jelenít meg mátrix formában (az oszlop mentén a változó értékeket koordinátákként használják x, és a változó értékek a vonal mentén - koordinátákként Y). Az egyes változók eloszlását ábrázoló hisztogramok a mátrix átlóján (négyzetes mátrixok esetén) vagy az élek mentén (téglalap alakú mátrixok esetén) helyezkednek el.

Lásd még: Mintaméret csökkentése.

A kategorizált diagramokhoz ugyanazt a változót kell megválasztani, mint a megfelelő típusú, kategorizálatlan diagramokhoz (például két változó egy szóródási diagramhoz). Ugyanakkor a kategorizált gráfokhoz legalább egy csoportosítási változó megadása szükséges (vagy a megfigyelések kategóriákba bontásának módja), amely az egyes megfigyelések egy adott alcsoportba való besorolására vonatkozó információkat tartalmazna. A csoportosító változót nem közvetlenül ábrázoljuk (vagyis nem ábrázoljuk), hanem kritériumként szolgál az összes elemzett megfigyelés külön alcsoportokra bontásához. Minden, a csoportosítási változó által meghatározott csoporthoz (kategóriához) egy grafikon kerül ábrázolásra.

8. Melyek a feltáró adatelemzés grafikus módszereinek előnyei és hátrányai?

Válasz:+ Világosság és egyszerűség.

Vizualizáció (az adatok többdimenziós grafikus ábrázolása, amellyel az elemző maga azonosítja az adatok közötti mintákat és kapcsolatokat).

- A módszerek közelítő értékeket adnak.

n - Nagyfokú szubjektivitás az eredmények értelmezésében.

n Az elemző modellek hiánya.

9. Az elsődleges feltáró adatelemzés milyen analitikai módszereit ismeri?

Válasz:Statisztikai módszerek, neurális hálózatok.

10. Hogyan tesztelhető a Statistica rendszerben a mintaadatok eloszlásának a normál eloszlási modellel való egyezésére vonatkozó hipotézis?

Válasz:Az x2 (khi-négyzet) eloszlás n szabadságfokkal n független standard normális valószínűségi változó négyzetösszegének eloszlása.

A khi-négyzet a különbség mértéke. A hibaszintet a=0,05-re állítottuk. Ennek megfelelően, ha p>a érték, akkor az eloszlás optimális.

- a mintaadatok eloszlásának a normál eloszlási modellel való egyezésre vonatkozó hipotézisének teszteléséhez khi-négyzet próbával a Statisztika/Eloszlási illesztések menüpontot kell kiválasztani. Ezután a Vitatott eloszlás illesztése párbeszédpanelen állítsa be az elméleti eloszlás típusát Normál értékre, válassza ki a változót a Változók értékre, és állítsa az elemzési paramétereket Paraméterekre.

11. Milyen alapvető statisztikai jellemzőit ismeri a mennyiségi változókra? Leírásuk és értelmezésük a megoldandó probléma szempontjából.

Válasz:A mennyiségi változók alapvető statisztikai jellemzői:

matematikai elvárás (átlag a mintában, értékek összege\n, átlagos termelési volumen a vállalkozások között)

medián (az értékek közepe.)

szórás (a variancia négyzetgyöke)

diszperzió (egy adott valószínűségi változó terjedésének mértéke, azaz a matematikai elvárástól való eltérése)

aszimmetria együttható (A szimmetriaközépponthoz viszonyított elmozdulást a következő szabály szerint határozzuk meg: ha B1>0, akkor az elmozdulás balra, ellenkező esetben jobbra.)

kurtózis együttható (normál eloszláshoz való közelség)

minimális mintaérték, maximális mintaérték,

terjedés

minta felső és alsó kvartilis

Mód (csúcsérték)

12. Milyen kapcsolatmérőkkel mérjük a mennyiségi és az ordinális változók közötti kapcsolat szorosságát? Számításuk a Statisticában és értelmezésük.

Válasz:A korreláció két vagy több valószínűségi változó közötti statisztikai kapcsolat.

Ebben az esetben ezen mennyiségek egy vagy több változása egy másik vagy más mennyiség szisztematikus változásához vezet. A két valószínűségi változó közötti korreláció mértéke a korrelációs együttható.

Mennyiségi:

A korrelációs együttható két valószínűségi változó változásának természetét jelzi.

Pearson korrelációs együttható (a változók közötti lineáris kapcsolatok mértékét méri. A korrelációról azt mondhatjuk, hogy azt méri, hogy két változó értéke milyen mértékben arányos egymással.)

Részleges korrelációs együttható (a változók közötti közelség mértékét méri, feltéve, hogy a többi változó értéke állandó szinten van rögzítve).

Minőség:

Spearman-féle rangkorrelációs koefficiens (a jelenségek közötti kapcsolat statisztikai vizsgálatára szolgál. A vizsgált objektumok egy bizonyos jellemzőhöz viszonyítva vannak rendezve, azaz sorszámokat - rangokat - rendelnek hozzájuk.)

| következő előadás ==>

Az „adatbányászat” fogalma nagy mennyiségű (általában gazdasági jellegű) információ analitikus vizsgálatának folyamata annak érdekében, hogy azonosítani lehessen a változók közötti bizonyos mintákat és szisztematikus kapcsolatokat, amelyeket aztán új adathalmazokra lehet alkalmazni. Ez a folyamat három fő szakaszból áll: kutatás, modell vagy keretrendszer felépítése és tesztelése. Ideális esetben elegendő adat birtokában egy iteratív eljárás szervezhető stabil (robusztus) modell felépítéséhez. Ugyanakkor valós helyzetben szinte lehetetlen tesztelni a gazdasági modellt az elemzési szakaszban, ezért a kezdeti eredmények heurisztika jellegűek, amelyek a döntéshozatali folyamatban használhatók (például „Elérhető adatok azt jelzik, hogy a nőknél a hipnotikumok szedésének gyakorisága az életkorral gyorsabban növekszik, mint a férfiaknál."

Az adatbányászati ​​technikák egyre népszerűbbé válnak a gazdasági információk elemzésének eszközeként, különösen akkor, ha azt remélik, hogy a rendelkezésre álló adatokból tudást lehet kinyerni a döntések meghozatalához a bizonytalanság körülményei között. Bár az utóbbi időben megnőtt az érdeklődés új, kifejezetten az üzleti szférára tervezett adatelemzési módszerek (pl. Osztályozó fák), az adatbányászati ​​rendszerek általában még mindig a klasszikus elveken alapulnak feltáró adatelemzés(RAD) és modellépítés, és ugyanazokat a megközelítéseket és módszereket alkalmazza.

Lényeges különbség van azonban az adatbányászati ​​eljárás és a klasszikus feltáró adatelemzés (EDA) között: az adatbányászati ​​rendszerek inkább a kapott eredmények gyakorlati alkalmazására koncentrálnak, mintsem a jelenség természetének tisztázására. Más szóval, az adatok bányászatánál nem nagyon érdekel minket a feladatváltozók közötti függőségek konkrét típusa. Ennek az eljárásnak nem a fő célja az itt érintett függvények jellegének vagy a változók közötti interaktív többváltozós függőségek sajátos formájának meghatározása. A fő figyelmet arra fordítják, hogy olyan megoldásokat találjanak, amelyek alapján megbízható előrejelzések készíthetők. Így az adatbányászat területe az adatelemzés és a tudáskinyerés során olykor „fekete doboznak” nevezett megközelítést alkalmaz. Ebben az esetben nemcsak a feltáró adatelemzés klasszikus módszereit alkalmazzák, hanem olyan módszereket is, mint például a neurális hálózatok, amelyek lehetővé teszik megbízható előrejelzések felépítését anélkül, hogy meghatároznák az ilyen előrejelzés alapjául szolgáló függőségek konkrét típusát.

Az adatbányászatot nagyon gyakran „statisztika, mesterséges intelligencia (AI) módszerek és adatbázis-elemzés keverékeként” értelmezik (Pregibon, 1997, 8. o.), és egészen a közelmúltig nem ismerték el teljes értékű területként. a statisztikai szakemberek érdeklődését, és néha „a statisztika holtágainak” is nevezik (Pregibon, 1997, 8. o.). Ez a probléma azonban – nagy gyakorlati jelentősége miatt – ma már intenzíven fejleszthető és nagy érdeklődést vált ki (statisztikai vonatkozásaiban is), és fontos elméleti eredmények születtek benne.

Feltáró adatelemzés (RAD)

Ellentétben a hagyományos hipotézis teszteléssel, amely a változók közötti kapcsolatokra vonatkozó előzetes feltételezések tesztelésére szolgál (például „Pozitív korreláció van egy személy életkora és kockázatkerülése között”), a feltáró adatelemzést (EDA) használják a feltáró adatok megtalálására. a változók közötti kapcsolatok olyan helyzetekben, amikor nincsenek (vagy nem elégségesek) a priori elképzelések ezen kapcsolatok természetéről. A feltáró elemzés jellemzően nagyszámú változót vesz figyelembe és hasonlít össze, és sokféle módszert alkalmaz a minták megtalálására.

A többváltozós feltáró elemzési technikákat kifejezetten arra tervezték, hogy mintákat találjanak többváltozós adatokban (vagy egyváltozós adatok sorozataiban). Ezek közé tartozik: klaszteranalízis, faktoranalízis, diszkrimináns függvényelemzés, többdimenziós skálázás, loglineáris elemzés, kanonikus korrelációk, lépcsőzetes lineáris és nemlineáris (pl. logit) regresszió, korrespondenciaelemzés, idősorelemzés és osztályozási fák.

Klaszteranalízis

A klaszteranalízis kifejezés (elsőként Tryon, 1939) valójában különféle osztályozási algoritmusokat tartalmaz. Sok terület kutatóinak gyakori kérdése, hogy a megfigyelt adatokat hogyan lehet vizuális struktúrákba rendezni, pl. taxonómiákat bővíteni. Például a biológusok célja, hogy az állatokat különböző fajokba sorolják, hogy értelmesen leírják a köztük lévő különbségeket. A biológiában elfogadott modern rendszer szerint az ember a főemlősök, emlősök, magzatvíz, gerincesek és állatok közé tartozik. Vegye figyelembe, hogy ebben az osztályozásban minél magasabb az aggregáció szintje, annál kisebb a hasonlóság a megfelelő osztály tagjai között. Az emberek jobban hasonlítanak más főemlősökhöz (azaz a majmokhoz), mint az emlősök családjának "külső" tagjaihoz (azaz a kutyákhoz) stb.

A klaszterezési technikákat számos területen alkalmazzák. Hartigan (1975) kiváló áttekintést adott számos publikált tanulmányról, amelyek klaszterelemzési módszerekkel nyert eredményeket tartalmaztak. Például az orvostudomány területén a betegségek csoportosítása, a betegségek kezelése vagy a betegségek tünetei széles körben használt taxonómiákhoz vezet. A pszichiátria területén az olyan tünetcsoportok, mint a paranoia, skizofrénia stb. helyes diagnózisa kulcsfontosságú a sikeres terápia szempontjából. A régészetben klaszteranalízissel a kutatók megpróbálják megállapítani a kőeszközök, temetkezési tárgyak stb. taxonómiáját. A klaszterelemzésnek széles körben elterjedt alkalmazásai vannak a marketingkutatásban. Általánosságban elmondható, hogy amikor az információ „hegyeit” további feldolgozásra alkalmas csoportokba kell sorolni, a klaszterelemzés nagyon hasznosnak és hatékonynak bizonyul.

A klaszteranalízis általános módszerei:

    Egyesítés (fa klaszterezés),

    Két bemenetes kombinálás

    K jelentése módszer.

Főkomponensek és faktoranalízis

A faktoranalízis fő céljai a következők:

    a változók számának csökkentése (adatcsökkentés)

    változók közötti kapcsolatok szerkezetének meghatározása, azaz. változók osztályozása.

Ezért a faktoranalízist vagy adatcsökkentési módszerként, vagy osztályozási módszerként alkalmazzák.

A faktoranalízis, mint adatredukciós módszer

Tegyük fel, hogy végez egy (kicsit "butított") vizsgálatot, amelyben száz ember magasságát méri meg hüvelykben és centiméterben. Tehát két változód van. Ha a következő lépésben például a különböző táplálék-kiegészítők növekedésre gyakorolt ​​hatását szeretné megvizsgálni, továbbra is mindkét változót használná? Valószínűleg nem, mert... A magasság az ember egyik jellemzője, függetlenül attól, hogy milyen mértékegységben mérik.

Most tegyük fel, hogy meg akarja mérni az emberek élettel való elégedettségét, amelyhez különféle elemeket tartalmazó kérdőívet hoz létre; Többek között a következőket kérdezi: elégedettek-e az emberek a hobbijukkal (1. pont), és milyen intenzíven foglalkoznak vele (2. pont). Az eredményeket úgy alakítjuk át, hogy az átlagos válaszok (például elégedettség esetén) 100-as értéknek feleljenek meg, míg az átlagos válaszok alatt és felett alacsonyabb, illetve magasabb értékek jelenjenek meg. Két változó (két különböző tételre adott válasz) korrelál egymással A két változó magas korrelációjából arra következtethetünk, hogy a kérdőív két eleme redundáns.

Idősor elemzés

Először rövid áttekintést adunk az idősorok formájában bemutatott adatok elemzésének módszereiről, pl. nem véletlenszerű időpontokban rendezett méréssorozatok formájában. A véletlenszerű mintaelemzéstől eltérően az idősor-elemzés azon a feltételezésen alapul, hogy egy adatfájl egymást követő értékeit rendszeres időközönként figyeljük meg (míg más módszereknél nem törődünk, és gyakran nem is törődünk a megfigyelések időzítésével).

Az idősorelemzésnek két fő célja van:

    a sorozat jellegének meghatározása

    előrejelzés (idősor jövőbeli értékeinek előrejelzése jelen és múltbeli értékek alapján).

Mindkét cél megköveteli a sorozatmodell azonosítását, és többé-kevésbé formális leírását. A modell meghatározása után felhasználhatja a vizsgált adatok értelmezésére (például felhasználhatja elméletében a nyersanyagárak szezonális változásainak megértéséhez, ha közgazdaságtant tanul). Az elmélet megértésének és érvényességének mélységétől függetlenül ezután extrapolálhat egy sorozatot a talált modell alapján, pl. megjósolni jövőbeli értékeit.

A legtöbb egyéb elemzéshez hasonlóan az idősoros elemzés is azt feltételezi, hogy az adatok szisztematikus (általában több komponensből álló) komponenst és véletlenszerű zajt (hiba) tartalmaznak, ami megnehezíti a szabályos komponensek észlelését. Az idősorok tanulmányozásának legtöbb módszere különböző zajszűrési módszereket tartalmaz, amelyek lehetővé teszik a normál komponens tisztábban történő látását.

Az idősorok legtöbb szabályos összetevője két osztályba tartozik: vagy trend, vagy szezonális komponens. A trend egy általános szisztematikus lineáris vagy nemlineáris komponens, amely idővel változhat. A szezonális komponens időszakosan visszatérő komponens. Mindkét típusú rendszeres komponens gyakran egyszerre van jelen sorozatban. Például egy vállalat árbevétele évről évre nőhet, de van szezonális összetevője is (általában az éves árbevétel 25%-a decemberben, és csak 4%-a augusztusban történik).

8. ELŐADÁSTUDÁSRENDSZEREK. SZAKÉRTŐI RENDSZEREK.

A szakértői rendszerek célja

A nyolcvanas évek elején a mesterséges intelligencia kutatásában önálló irány alakult ki, úgynevezett „szakértői rendszerek” (ES). Az ES-kutatás célja olyan programok kidolgozása, amelyek a humán szakértő számára nehéz problémák megoldása során olyan eredményeket érnek el, amelyek minőségében és hatékonyságában nem alacsonyabbak a szakértő által megszerzett megoldásoknál. Az ES területén dolgozó kutatók gyakran használják tudományáguk megnevezésére a „knowledge engineering” kifejezést is, amelyet E. Feigenbaum úgy vezetett be, hogy „a mesterséges intelligencia területéről származó alapelvek és kutatási eszközök bevezetése nehéz, szakértői tudást igénylő, alkalmazott problémák megoldásába. ”

A világban elterjedtek a szakértői rendszertechnológián alapuló szoftvereszközök (Software), vagy tudásmérnöki (a jövőben szinonimákként használjuk ezeket). A szakértői rendszerek jelentősége a következő:

szakértői rendszertechnika jelentősen bővíti a számítógépeken megoldható, gyakorlatilag jelentős problémák körét, amelyek megoldása jelentős gazdasági hatást hoz;

Az ES technológia a legfontosabb eszköz a hagyományos programozás globális problémáinak megoldásában: a komplex alkalmazások fejlesztésének időtartama és ebből következően magas költsége;

az összetett rendszerek fenntartásának magas költsége, amely gyakran többszöröse a fejlesztésük költségeinek; alacsony szintű program-újrafelhasználás stb.;

az ES technológia hagyományos programozási technológiával való kombinálása új minőséget ad a szoftvertermékekhez: biztosítja az alkalmazások dinamikus módosítását a felhasználó, nem pedig a programozó által; az alkalmazás nagyobb „átláthatósága” (például a tudást korlátozott NL-ben tárolják, ami nem igényel megjegyzéseket a tudáshoz, leegyszerűsíti a képzést és a karbantartást); jobb grafika; interfész és interakció.

Vezető szakértők szerint az ES a közeljövőben a következő alkalmazásokat fogja találni:

Az ES vezető szerepet fog játszani a tervezés, fejlesztés, gyártás, forgalmazás, értékesítés, támogatás és szolgáltatásnyújtás valamennyi szakaszában;

A kereskedelmileg széles körben elterjedt ES technológia forradalmi áttörést jelent majd a kész, intelligensen kölcsönható modulokból származó alkalmazások integrációjában.

Az ES-t úgynevezett informális feladatokra tervezték, pl. Az ES nem utasítja el vagy váltja fel a programfejlesztés hagyományos megközelítését, amely a formalizált problémák megoldására összpontosít.

Az informális feladatok általában a következő jellemzőkkel rendelkeznek:

a forrásadatok hibássága, kétértelműsége, hiányossága és következetlensége;

a problémakörrel és a megoldandó problémával kapcsolatos hibásság, kétértelműség, hiányosság és egymásnak ellentmondó ismeretek;

a megoldási tér nagy dimenziója, pl. a megoldás keresése nagyon kiterjedt;

dinamikusan változó adatok és ismeretek.

Hangsúlyozni kell, hogy az informális problémák a problémák nagy és nagyon fontos osztályát képviselik. Sok szakértő úgy véli, hogy ezek a problémák a számítógépek által megoldott problémák legelterjedtebb osztálya.

A szakértői rendszerek és a mesterséges intelligencia rendszerek abban különböznek az adatfeldolgozó rendszerektől, hogy elsősorban szimbolikus (nem numerikus) ábrázolást, szimbolikus következtetést és heurisztikus keresést használnak a megoldás érdekében (nem pedig egy ismert algoritmus végrehajtását).

A szakértői rendszereket csak nehéz gyakorlati (nem játék) problémák megoldására használják. A megoldások minőségét és hatékonyságát tekintve a szakértői rendszerek semmivel sem rosszabbak a humán szakértő döntéseinél. A szakértő rendszermegoldásoknak „átlátszósága” van, azaz. minőségi szinten elmagyarázható a felhasználónak. A szakértői rendszereknek ezt a minőségét az biztosítja, hogy képesek okoskodni tudásukról és következtetéseikről. A szakértői rendszerek a szakértővel való interakció során bővíthetik tudásukat. Megjegyzendő, hogy jelenleg a szakértői rendszertechnológiát különféle típusú problémák (értelmezés, előrejelzés, diagnosztika, tervezés, tervezés, vezérlés, hibakeresés, utasítás, menedzsment) megoldására alkalmazzák a legkülönfélébb problématerületeken, mint például a pénzügy, az olaj, ill. gázipar, energia, közlekedés, gyógyszergyártás, űripar, kohászat, bányászat, kémia, oktatás, cellulóz- és papíripar, távközlés és kommunikáció stb.

A mesterséges intelligencia-rendszereket (AI) fejlesztő cégek kereskedelmi sikerei nem jöttek azonnal. 1960-1985 között Az AI sikerei főként olyan kutatási fejlesztésekre vonatkoztak, amelyek az AGI gyakorlati felhasználásra való alkalmasságát bizonyították. Körülbelül 1985-től kezdődően (1988-tól 1990-ig tömegesen) elsősorban az ES-t, az utóbbi években pedig a természetes nyelvet észlelő rendszereket (NL rendszerek) és a neurális hálózatokat (NN) kezdték aktívan használni kereskedelmi alkalmazásokban.

Meg kell jegyezni, hogy egyes szakértők (általában a programozás szakértői, nem az AI-szakértők) továbbra is azzal érvelnek, hogy az ES és az AGI nem váltotta be a velük szemben támasztott elvárásokat, és meghalt. Az ilyen tévhitek okai az, hogy ezek a szerzők az ES-t a hagyományos programozás alternatívájának tekintették, i.e. abból indultak ki, hogy az ES önmagában (más szoftverektől elszigetelve) teljesen megoldja a vevő problémáit. Megjegyzendő, hogy az ES megjelenésének hajnalán a bennük használt nyelvek sajátosságai, az alkalmazásfejlesztési technológia és az alkalmazott berendezések (például Lisp gépek) okot adott arra, hogy az ES integrálása A hagyományos szoftverrendszerek bonyolult és valószínűleg lehetetlen feladatot jelentettek, tekintettel a valódi alkalmazások által támasztott korlátokra. Jelenleg azonban az ES létrehozására szolgáló kereskedelmi eszközöket (IS) a hagyományos programozás modern technológiai irányzatainak megfelelően fejlesztik, ami kiküszöböli az integrált alkalmazások létrehozása során felmerülő problémákat.

Az SII kereskedelmi sikeréhez vezető okok a következők.

Integráció Olyan mesterséges intelligencia eszközöket (AI eszközök) fejlesztettek ki, amelyek könnyen integrálhatók más információs technológiákkal és eszközökkel (CASE-val, DBMS-szel, vezérlőkkel, adatkoncentrátorokkal stb.).

Nyílt és hordozható: Az AI-rendszereket olyan szabványok szerint fejlesztették ki, amelyek biztosítják a nyitottságot és a hordozhatóságot.

A hagyományos programozási nyelvek és munkaállomások használata A mesterséges intelligencia nyelveken (Lisp, Prolog stb.) megvalósított AI-rendszerekről a hagyományos programozási nyelveken (C, C++ stb.) implementált AI-rendszerekre való átállás leegyszerűsítette a szolgáltatásintegráció, csökkentette az AI-alkalmazások számítógépsebességre és RAM-kapacitásra vonatkozó követelményeit. A munkaállomások használata (a PC-k helyett) drámaian megnövelte a mesterséges intelligencia rendszereket használó számítógépen futtatható alkalmazások körét.

Kliens-szerver architektúra. Olyan mesterséges intelligencia rendszereket fejlesztettek ki, amelyek kliens-szerver architektúrán keresztül támogatják az elosztott számítástechnikát, ami lehetővé tette: az alkalmazásokban használt berendezések költségének csökkentését, az alkalmazások decentralizálását, a megbízhatóság és az általános teljesítmény növelését (mivel a számítógépek között küldött információ mennyisége csökken, és minden alkalmazási modul megfelelő berendezésen fut).

Probléma/tárgy-orientált AI IS Az általános célú AI IS fejlesztéséről (bár ezek nem veszítették el fontosságukat az orientált IS létrehozásának eszközeként) a probléma/tárgy-orientált AI IS-re biztosítják: az alkalmazásfejlesztési idő csökkentése. ; az IP-használat hatékonyságának növelése; a szakértői munka egyszerűsítése és felgyorsítása; információk és szoftverek (objektumok, osztályok, szabályok, eljárások) újrafelhasználása.

Szakértői rendszerek felépítése

Egy tipikus statikus ES a következő fő összetevőkből áll:

megoldó (tolmács);

munkamemória (WM), más néven adatbázis (DB);

tudásbázisok (KB);

az ismeretszerzés összetevői;

magyarázó komponens;

párbeszéd komponens.

Az adatbázis (munkamemória) az éppen megoldandó probléma kezdeti és közbenső adatainak tárolására szolgál. Ez a kifejezés elnevezésében egybeesik, de jelentésében nem, az információkereső rendszerekben (IRS) és adatbázis-kezelő rendszerekben (DBMS) használt kifejezéssel, amely a rendszerben tárolt összes (elsősorban hosszú távú) adatra vonatkozik.

Az ES-ben található tudásbázis (KB) a vizsgált területet leíró hosszú távú adatok tárolására szolgál (és nem aktuális adatok), valamint az adatok megfelelő átalakításait leíró szabályok ezen a területen.

A megoldó a munkamemóriából származó kiindulási adatok és a tudásbázisból származó tudás felhasználásával szabálysorozatot generál, amely a kiindulási adatokra alkalmazva a probléma megoldásához vezet.

A tudásszerzési komponens automatizálja az ES tudással való feltöltésének folyamatát, amelyet egy szakértő felhasználó hajt végre.

A magyarázó komponens elmagyarázza, hogy a rendszer hogyan találta meg a probléma megoldását (vagy miért nem kapta meg a megoldást), és milyen ismereteket használt fel ennek során, ami megkönnyíti a szakértő számára a rendszer tesztelését és növeli a felhasználó bizalmát a probléma megoldásában. kapott eredményt.

A párbeszéd komponens a felhasználóval való barátságos kommunikáció megszervezésére összpontosít mind a problémák megoldása, mind az ismeretek megszerzése és a munka eredményeinek ismertetése során.

Az ES fejlesztésében az alábbi szakterületek képviselői vesznek részt:

a problématerület szakértője, akinek feladatait az ES megoldja;

tudásmérnök - az ES fejlesztésének specialistája (az általa használt technológiát és módszereket tudásmérnöki technológiának (módszerek) nevezik);

programozó az ES fejlesztésének felgyorsítására szolgáló eszközök (IS) fejlesztéséhez.

Megjegyzendő, hogy a tudásmérnökök hiánya a fejlesztésben résztvevők között (azaz programozókkal való helyettesítése) vagy kudarchoz vezet az ES létrehozásának folyamatában, vagy jelentősen meghosszabbítja azt.

A szakértő meghatározza a problématerületet jellemző ismereteket (adatokat és szabályokat), biztosítja az ES-be bevitt ismeretek teljességét és helyességét.

A tudásmérnök segít a szakértőnek azonosítani és strukturálni az ES működéséhez szükséges ismereteket; kiválasztja az adott problématerületre legmegfelelőbb IS-t, és meghatározza a tudás megjelenítésének módját ebben az IS-ben; kiválasztja és beprogramozza (hagyományos eszközökkel) az adott problématerületre jellemző szabványos függvényeket, amelyeket a szakértő által beírt szabályokban használni fog.

A programozó kifejleszt egy IS-t (ha az IS-t újból fejlesztik), amely korláton belül tartalmazza az ES összes fő összetevőjét, és interfésszel azt a környezethez, amelyben használni fogják.

A szakértői rendszer két üzemmódban működik: tudásszerzési módban és problémamegoldó módban (konzultációs módnak vagy ES használati módnak is nevezik).

A tudásszerzés módban az ES-vel való kommunikációt (tudásmérnök közvetítésével) szakértő végzi. Ebben a módban a szakértő a tudásszerzési komponenst használva olyan tudással tölti fel a rendszert, amely lehetővé teszi az ES számára, hogy megoldási módban önállóan (szakértő nélkül) megoldja a problémákat a problématerületről. A szakember a problématerületet adatok és szabályok összességeként írja le. Az adatok a szakterületen létező objektumokat, jellemzőiket és jelentéseiket határozzák meg. A szabályok a kérdéses tartományra jellemző adatok kezelésének módjait határozzák meg.

Megjegyzendő, hogy a programfejlesztés hagyományos megközelítésében az ismeretszerzés módja a programozó által végzett algoritmizálás, programozás és hibakeresés szakaszainak felel meg. Így a hagyományos megközelítéssel ellentétben egy ES esetében a programok fejlesztését nem programozó, hanem programozást nem ismerő szakértő (ES segítségével) végzi.

Konzultációs módban az ES-vel való kommunikációt az a végfelhasználó végzi, akit érdekel az eredmény és (vagy) annak megszerzésének módja. Figyelembe kell venni, hogy az ES céljától függően előfordulhat, hogy a felhasználó nem szakértője egy adott problémakörnek (ebben az esetben az ES-hez fordul eredményért, anélkül, hogy azt maga megszerezhetné), ill. legyen szakember (ebben az esetben a felhasználó maga is megszerezheti az eredményt, de az ES-hez fordul, hogy felgyorsítsa az eredmény elérését, vagy rutinmunkát rendeljen az ES-hez). Konzultációs módban a felhasználó feladatával kapcsolatos adatok a párbeszéd-komponens általi feldolgozás után a munkamemóriába kerülnek. A megoldó a munkamemóriából származó bemeneti adatok, a problématerületre vonatkozó általános adatok és a tudásbázis szabályai alapján megoldást generál a problémára. Egy probléma megoldása során az ES nemcsak végrehajtja az előírt műveletsort, hanem elő is formálja azt. Ha a rendszer válasza nem egyértelmű a felhasználó számára, magyarázatot kérhet:

„Miért tesz fel a rendszer ezt vagy azt a kérdést?”, „Hogyan fogadja a rendszer által összegyűjtött választ?”

Az ilyen típusú statikus ES.ES felépítését azokban az alkalmazásokban használják, ahol lehetőség van arra, hogy figyelmen kívül hagyják a környező világban a probléma megoldása során bekövetkező változásokat. Az első ES-k, amelyek gyakorlati felhasználásra kerültek, statikusak voltak.

A statikus ES-hez képest a dinamikus ES architektúrájába két komponens kerül be: a külső világ modellezésére szolgáló alrendszer és a külső környezettel való kommunikáció alrendszere. Ez utóbbi érzékelők és vezérlők rendszerén keresztül kommunikál a külvilággal. Ezenkívül a statikus ES hagyományos összetevői (a tudásbázis és a következtetési motor) jelentős változásokon mennek keresztül, hogy tükrözzék a valós világban előforduló események időbeli logikáját.

Hangsúlyozzuk, hogy az ES felépítése csak a komponenseket (funkciókat) tükrözi, és sok minden „a színfalak mögött” marad. ábrán. Az 1.3 bemutatja a modern IS általános felépítését a dinamikus ES létrehozására, amely a fő összetevők mellett tartalmazza azokat a képességeket, amelyek lehetővé teszik integrált alkalmazások létrehozását a modern programozási technológiának megfelelően.

A szakértői rendszerek fejlesztésének szakaszai

Az ES fejlesztés jelentős eltéréseket mutat a hagyományos szoftvertermékek fejlesztésétől. Az ES létrehozásának tapasztalatai azt mutatják, hogy a hagyományos programozásban alkalmazott módszertan alkalmazása fejlesztésük során vagy túlzottan késlelteti az ES létrehozásának folyamatát, vagy általában negatív eredményhez vezet.

Az ES-t csak akkor szabad alkalmazni, ha az ES fejlesztése lehetséges, indokolt, és a tudásmérnöki módszerek megfelelnek a megoldandó problémának. Ahhoz, hogy egy adott alkalmazáshoz ES kidolgozható legyen, legalább a következő követelményeknek egyidejűleg teljesülniük kell:

1) vannak olyan szakértők ezen a területen, akik sokkal jobban megoldják a problémát, mint a kezdő szakemberek;

2) a szakértők egyetértenek a javasolt megoldás értékelésében, ellenkező esetben a kidolgozott ES minőségét nem lehet értékelni;

3) a szakértők képesek verbalizálni (természetes nyelven kifejezni) és elmagyarázni az általuk használt módszereket, különben nehéz számolni azzal, hogy a szakértők tudását „kivonják” és befektetik az ES-be;

4) a probléma megoldása csak érvelést igényel, cselekvést nem;

5) a feladat ne legyen túl nehéz (azaz a megoldása több órát vagy napot vesz igénybe a szakértőnek, ne hetekig);

6) bár a feladatot nem szabad formális formában kifejezni, mégis eléggé „érthető” és strukturált területre kell vonatkoznia, pl. ki kell emelni a (legalábbis szakember által) ismert alapfogalmakat, összefüggéseket, módszereket a probléma megoldására;

7) a probléma megoldása nem támaszkodhat nagymértékben a „józan észre” (azaz a világról és annak működéséről szóló általános információk széles skálájára, amelyeket minden normális ember ismer és használhat), mivel ilyen ismeretekre még nem volt lehetőség. (elegendő mennyiségben) mesterséges intelligencia-rendszerekbe fektetni.

Az ES használata ebben az alkalmazásban lehetséges, de nem indokolt. Az ES használatát a következő tényezők egyike indokolhatja:

a probléma megoldása jelentős, például gazdasági hatást hoz;

humán szakértő igénybevétele vagy a szakértők hiánya miatt, vagy a vizsgálat különböző helyszíneken történő egyidejű elvégzésének szükségessége miatt lehetetlen;

ES-t tanácsos használni azokban az esetekben, amikor elfogadhatatlan idő- vagy információveszteség következik be az információ szakértőnek történő továbbítása során;

Tanácsos ES-t használni, ha emberellenes környezetben kell megoldani egy problémát.

Az alkalmazás akkor felel meg az ES módszereknek, ha a megoldandó probléma a következő jellemzők kombinációjával rendelkezik:

1) a probléma természetesen megoldható szimbólumok manipulálásával (azaz szimbolikus érvelés használatával), nem pedig számok manipulálásával, ahogy az a matematikai módszerekben és a hagyományos programozásban megszokott;

2) a feladatnak inkább heurisztikus, mint algoritmikus jellegűnek kell lennie, azaz. megoldásának heurisztikus szabályok alkalmazását kell követelnie. Azok a problémák, amelyek bizonyos formális eljárásokkal garantáltan megoldhatók (meghatározott megkötések mellett), nem alkalmasak ES használatára;

3) a feladatnak kellően összetettnek kell lennie ahhoz, hogy indokolja az ES kidolgozásának költségeit. Azonban nem lehet túl bonyolult (a megoldás szakértői órákat vesz igénybe, nem heteket), hogy az ES megoldja;

4) a problémának elég szűknek kell lennie ahhoz, hogy ES módszerekkel megoldható legyen, és gyakorlatilag jelentősnek kell lennie.

Az elektronikus rendszer fejlesztésekor általában a „gyors prototípus” fogalmát használják. Ennek a koncepciónak az a lényege, hogy a fejlesztők nem próbálják meg azonnal megépíteni a végterméket. A kezdeti szakaszban létrehoznak egy ES prototípuso(ka)t. A prototípusoknak két egymásnak ellentmondó követelménynek kell megfelelniük: egyrészt egy adott alkalmazás tipikus problémáit kell megoldaniuk, másrészt fejlesztésük idő- és munkaintenzitása nagyon elhanyagolható legyen, hogy a tudás felhalmozásának és hibakeresésének folyamata ( szakértő által végzett) lehetőség szerint párhuzamosítható a szoftverek kiválasztásának (fejlesztésének) folyamatával (tudásmérnök és programozó végzi). E követelmények teljesítése érdekében a prototípus létrehozásakor általában különféle eszközöket használnak a tervezési folyamat felgyorsítására.

A prototípusnak igazolnia kell a tudásmérnöki technikák alkalmasságát az alkalmazáshoz. Siker esetén a szakértő tudásmérnök segítségével bővíti a prototípus tudását a problématerületről. Ha nem sikerül, új prototípust kell fejleszteni, vagy a fejlesztők arra a következtetésre juthatnak, hogy az ES-módszerek nem megfelelőek az alkalmazáshoz. A tudás gyarapodásával egy prototípus elérheti azt a pontot, ahol sikeresen megoldja az adott alkalmazás összes problémáját. Az ES prototípus végtermékké való átalakítása általában az ES alacsony szintű nyelvekre történő újraprogramozásához vezet, ami egyszerre növeli az ES sebességét és csökkenti a szükséges memóriát. Az ES létrehozásának bonyolultsága és időigénye nagyban függ a használt eszközök típusától.

Az ES létrehozásával kapcsolatos munka során kialakult egy bizonyos technológia fejlesztésükhöz, amely a következő hat szakaszból áll:

azonosítás, konceptualizálás, formalizálás, megvalósítás, tesztelés, próbaüzem. Az azonosítás szakaszában meghatározzák a megoldandó feladatokat, meghatározzák a fejlesztési célokat, meghatározzák a szakértőket és a felhasználók típusait.

A konceptualizálás szakaszában a problématerület érdemi elemzését végzik el, azonosítják a használt fogalmakat és azok összefüggéseit, valamint meghatározzák a problémák megoldásának módszereit.

A formalizálás szakaszában kiválasztják az információs rendszereket és meghatározzák az összes tudástípus ábrázolásának módjait, formalizálják az alapfogalmakat, meghatározzák a tudás értelmezésének módjait, modellezik a rendszer működését, valamint a rögzített fogalmak megfelelőségét, megoldási módokat. , valamint a tudás megjelenítésének és manipulálásának eszközeit értékelik a rendszer céljaira.

A végrehajtási szakaszban a szakértő kitölti a tudásbázist. Tekintettel arra, hogy az ES alapja a tudás, ez a szakasz a legfontosabb és legmunkaigényesebb szakasz az ES kidolgozásában. Az ismeretszerzés folyamata a tudás szakértőtől való kinyerésére, a rendszer hatékony működését biztosító tudásszervezésre, valamint a tudás ES által érthető formában történő bemutatására oszlik. Az ismeretek megszerzésének folyamatát a tudásmérnök végzi, a szakértő valós problémák megoldásában végzett tevékenységének elemzése alapján.

Végfelhasználói felület

A G2 rendszer gazdag lehetőségeket kínál a fejlesztőnek egy egyszerű, áttekinthető és kifejező grafikus felhasználói felület létrehozására animációs elemekkel. A javasolt eszközök lehetővé teszik a szinte korlátlan összetettségű technológiai folyamatok vizuális megjelenítését az absztrakció és a részletesség különböző szintjein. Ezenkívül az alkalmazásobjektumok közötti kapcsolatok grafikus megjelenítése közvetlenül használható a tudásleíró nyelv deklaratív konstrukcióiban.

Az RTworks nem rendelkezik saját eszközzel a felügyelt folyamat aktuális állapotának megjelenítéséhez. Az alkalmazásfejlesztő kénytelen a VI Corporation Dataview rendszerét használni, ami erősen korlátozza a képességeit.

A TDC Expert felhasználói felületét a TDC 3000 rendszer képességei korlátozzák, pl. végfelhasználói interakció

szöveges módra korlátozódik.

A tudás reprezentációja szakértői rendszerekben

Az első és fő kérdés, amelyet a tudás bemutatásakor meg kell oldani, a tudás összetételének meghatározásának kérdése, i. szakértői rendszerben a „MIT KÉPVISELNI” meghatározása. A második kérdés arra vonatkozik, hogy „HOGYAN KÉPVISELJÜK” a tudást. Meg kell jegyezni, hogy ez a két probléma nem független. A választott ábrázolási mód ugyanis elvileg alkalmatlannak vagy hatástalannak bizonyulhat bizonyos ismeretek kifejezésére.

Véleményünk szerint a „HOGYAN KÉPVISELJÜK” kérdést két, egymástól nagymértékben független feladatra oszthatjuk: a tudás rendszerezése (strukturálása), illetve a tudás reprezentálása a választott formalizmusban.

A tudás szervezésének önálló problémává való elkülönítésének vágyát különösen az okozza, hogy ez a probléma bármely reprezentációs nyelv esetében felmerül, és a probléma megoldásának módszerei ugyanazok (vagy hasonlóak) az alkalmazott formalizmustól függetlenül.

Tehát a tudás bemutatása során megoldandó problémák köre a következőket tartalmazza:

a reprezentált tudás összetételének meghatározása;

tudásszervezés;

tudás reprezentációja, i.e. a prezentációs modell meghatározása. Az ES tudás összetételét a következő tényezők határozzák meg:

problémás környezet;

szakértői rendszer architektúra;

felhasználói igények és célok;

kommunikáció nyelve.

A statikus szakértői rendszer általános sémája szerint a működéséhez a következő ismeretek szükségesek:

az értelmező (megoldó) által használt problémamegoldási folyamatra vonatkozó ismeretek (azaz ellenőrzési ismeretek);

ismeretek a kommunikáció nyelvéről és a nyelvi feldolgozó (párbeszédkomponens) által használt párbeszédszervezési módszerekről;

ismeretek az ismeretszerzési komponens által használt tudásábrázolás és -módosítás módszereiről;

a magyarázó komponens által használt szerkezeti és ellenőrzési ismeretek támogatása.

A dinamikus ES-hez ezen kívül a következő ismeretekre van szükség:

1) a külső környezettel való interakció módszereinek ismerete;

2) ismeretek a külső világ modelljéről.

A tudás összetételének a felhasználói igényektől való függése a következőkben nyilvánul meg:

milyen feladatokat (az általános feladatsorból) és milyen adatokkal kíván megoldani a felhasználó;

melyek a preferált megoldások és módszerek;

milyen korlátozások mellett kell megoldani a problémát az eredmények számának és az ezek megszerzésének módszereinek megfelelően;

milyen követelmények vonatkoznak a kommunikáció nyelvére és a párbeszéd szervezésére;

milyen fokú a felhasználó rendelkezésére álló tudás általánossága (specifikussága) a problématerületről;

mik a felhasználók céljai.

A kommunikáció nyelvével kapcsolatos ismeretek összetétele mind a kommunikáció nyelvétől, mind a megértés szükséges szintjétől függ.

A szakértői rendszer architektúráját figyelembe véve célszerű a tudást értelmezhetőre és értelmezhetőre felosztani. Az első típusba azok az ismeretek tartoznak, amelyeket a megoldó (tolmács) képes értelmezni. Minden más tudás a második típusba tartozik. Felépítésüket és tartalmukat a megoldó nem ismeri. Ha ezt a tudást a rendszer bármely komponense használja, akkor nincs „tudatában” ennek a tudásnak. A nem értelmezhető tudást segédismeretekre osztják, amelyek a kommunikációs nyelv szókincsére és nyelvtanára vonatkozó információkat, a párbeszéd szerkezetére vonatkozó információkat, valamint a támogató ismereteket tárolják. A segédtudást a természetes nyelvi komponens dolgozza fel, de a megoldó nem ismeri ennek a feldolgozásnak az előrehaladását, mivel a bemeneti üzenetek feldolgozásának ez a szakasza a vizsgálat segédeszköze. A rendszer kialakítása és a magyarázatok végrehajtása során a támogató ismereteket felhasználjuk. A tudástámogató szerepe van mind az értelmezett tudás, mind a rendszer cselekvéseinek leírásának (indoklásának). A támogató tudás technológiai és szemantikai részre oszlik. A technológiai támogató ismeretek információkat tartalmaznak az általuk leírt tudás keletkezésének idejéről, a tudás szerzőjéről stb. A szemantikai támogató tudás ezen ismeretek szemantikai leírását tartalmazza. Információkat tartalmaznak a tudásba lépés okairól, a tudás céljáról, leírják a tudás felhasználásának módját és az ebből eredő hatást. A tudás támogatása leíró jellegű.

Az értelmezhető tudás felosztható tantárgyi tudásra, kontroll tudásra és reprezentációs tudásra.

A tantárgyi ismeretek adatokat tartalmaznak a tárgykörről és az adatok átalakításának módjairól a hozzárendelt problémák megoldása során. Vegyük észre, hogy a tantárgyi tudással kapcsolatban a reprezentációról és a kontrollról szóló tudás meta-tudásnak minősül. A leírók bizonyos információkat tartalmaznak a tantárgyi tudásról, például a szabályok és adatok bizonyosságának fokáról, a fontosság mértékéről és az összetettségről. A tényleges tantárgyi ismereteket tényekre és végrehajtható állításokra bontják. A tények határozzák meg a tartomány entitásainak és jellemzőinek lehetséges értékeit. A végrehajtható utasítások információkat tartalmaznak arról, hogyan módosíthatja a problématartomány leírását a problémák megoldása során. Más szóval, a végrehajtható utasítások olyan ismeretek, amelyek feldolgozási eljárásokat határoznak meg. Kerüljük azonban az „eljárási ismeretek” kifejezést, mert szeretnénk hangsúlyozni, hogy ez az ismeret nem csak procedurális, hanem deklaratív formában is megadható.

Az irányítási ismeretek fókuszálásra és döntésre oszthatók. A tudás fókuszálása azt írja le, hogy egy adott helyzetben milyen tudást kell használni. A fókuszáló tudás általában a legígéretesebb objektumokról vagy szabályokról tartalmaz információkat, amelyeket célszerű használni a megfelelő hipotézisek tesztelésekor. Az első esetben a figyelem a munkamemória elemeire, a másodikban a tudásbázis szabályaira összpontosul. A döntési tudás olyan információkat tartalmaz, amelyek segítségével kiválasztható az adott helyzetnek megfelelő tudásértelmezési mód. Ezt a tudást arra használjuk, hogy kiválasszuk azokat a stratégiákat vagy heurisztikákat, amelyek a leghatékonyabbak egy adott probléma megoldására.

Egy szakértői rendszer minőségi és mennyiségi mutatói jelentősen javíthatók a metaismeretek, azaz a metaismeretek felhasználásával. tudás a tudásról. A metanowledge nem egyetlen entitást képvisel, különféle célok elérésére használható fel. Felsoroljuk a metaismeret lehetséges céljait:

1) a meta-tudást stratégiai metaszabályok formájában használják a releváns szabályok kiválasztására;

2) a meta-tudás segítségével igazolják a szakterületről származó szabályok alkalmazásának megvalósíthatóságát;

3) metaszabályokat használnak a tárgyi szabályok szintaktikai és szemantikai hibáinak észlelésére;

4) a metaszabályok lehetővé teszik a rendszer számára, hogy a tantárgyi szabályok és funkciók átstrukturálásával alkalmazkodjon a környezethez;

5) a meta-szabályok lehetővé teszik a rendszer képességeinek és korlátainak explicit jelzését, pl. meghatározza, hogy a rendszer mit tud és mit nem.

A tudásszervezés kérdéseit minden reprezentációnál figyelembe kell venni, megoldásuk nagymértékben független a választott reprezentációs módszertől (modelltől). Kiemeljük a tudásszervezés problémájának következő aspektusait:

az ismeretek rendszerezése bemutatási szintek és részletezési szintek szerint;

tudás szervezése a munkamemóriában;

a tudás tudásbázisba szervezése.

Bemutatási szintek és részletességi szintek

Ahhoz, hogy egy szakértői rendszer irányítani tudja a megoldáskeresés folyamatát, képes legyen új ismeretek elsajátítására, cselekedeteinek magyarázatára, tudását nemcsak felhasználni, hanem megérteni, feltáró képességgel kell rendelkeznie, i. A szakértői rendszernek ismernie kell azt, hogy a problémakörnyezetre vonatkozó tudása hogyan jelenik meg. Ha a problémakörnyezetre vonatkozó ismereteket a reprezentáció nulla szintjének ismeretének nevezzük, akkor a reprezentáció első szintje tartalmazza a metaismeretet, azaz. tudás arról, hogy a zéró szintű tudásrendszerek hogyan jelennek meg a belső világban. Az első szint azt az ismeretet tartalmazza, hogy milyen eszközökkel ábrázolják a tudást a nulla szinten. Az első szintű tudásnak jelentős szerepe van a döntési folyamat irányításában, a rendszer cselekvéseinek elsajátításában, magyarázatában. Tekintettel arra, hogy az első szintű tudás nem tartalmaz hivatkozásokat a nulla szintű tudásra, az első szintű tudás független a problémakörnyezettől.

A bemutatási szintek száma kettőnél több is lehet. A bemutatás második szintje az első szint tudásáról tartalmaz információkat, pl. ismeretek az első szintű alapfogalmak ábrázolásáról. Az ismeretek reprezentációs szintekre való felosztása biztosítja a rendszer alkalmazhatósági körének bővítését.

A részletszintek elkülönítése lehetővé teszi az ismeretek különböző fokú részletességgel történő szemlélését. A részletezettségi szintek számát nagymértékben meghatározza a megoldandó problémák sajátosságai, az ismeretek mennyisége és bemutatásának módja. Általában legalább három részletezési szint létezik, amelyek a tudás általános, logikai és fizikai szerveződését tükrözik. A több részletezési szint bevezetése további fokú rugalmasságot biztosít a rendszer számára, mivel lehetővé teszi, hogy egy szinten változtatásokat hajtsanak végre anélkül, hogy másokat érintenének. Az egy részletezési szinten végrehajtott változtatások további változtatásokhoz vezethetnek ugyanazon a szinten, ami az adatstruktúrák és programok közötti összhang biztosításához szükséges. A különböző szintek jelenléte azonban megakadályozza, hogy az egyik szintről a változások átterjedjenek a többire.

Az ismeretek rendszerezése a munkarendszerben

A szakértői rendszerek munkamemóriája (WM) adatok tárolására szolgál. A munkamemóriában lévő adatok lehetnek homogének vagy adattípusok szerint szintekre oszthatók. Ez utóbbi esetben a munkamemória minden szintje a megfelelő típusú adatokat tárolja. A szintek kiválasztása bonyolítja a szakértői rendszer felépítését, de hatékonyabbá teszi a rendszert. Megkülönböztetheti például a tervszintet, a napirendi szintet (a végrehajtásra kész szabályok rendezett listája) és a tartományi adatszintet (a döntési szint).

A modern szakértői rendszerekben a munkamemóriában lévő adatokat elszigeteltnek vagy kapcsolódónak tekintik. Az első esetben a munkamemória sok egyszerű elemből, a második esetben pedig egy vagy több (az RP-ben több szinttel) összetett elemből (például objektumokból) áll. Ebben az esetben egy összetett elem sok egyszerű elemnek felel meg, amelyek egyetlen entitásba egyesülnek. Elméletileg mindkét megközelítés teljességet biztosít, de az izolált elemek komplex tartományokban történő alkalmazása hatékonyságvesztést eredményez.

Az RP-ben szereplő adatok a legegyszerűbb esetben állandók (vagy) változók Ebben az esetben a változók egy objektum jellemzőiként értelmezhetők, a konstansok pedig a megfelelő jellemzők értékeként. Ha az RP-ben egyszerre több különböző objektumot kell elemezni, amelyek leírják az aktuális problémahelyzetet, akkor meg kell jelölni, hogy a vizsgált jellemzők mely objektumokhoz tartoznak. A probléma megoldásának egyik módja az, ha egyértelműen jelezzük, hogy a jellemző melyik objektumra vonatkozik.

Ha az RP összetett elemekből áll, akkor az egyes objektumok közötti kapcsolatot kifejezetten jelezzük, például szemantikai relációk megadásával. Sőt, minden objektumnak saját belső szerkezete lehet. Meg kell jegyezni, hogy a keresés és az összehasonlítás felgyorsítása érdekében az RP-ben lévő adatok nem csak logikailag, hanem asszociatívan is összekapcsolhatók.

A tudás adatbázisba rendezése

A rendszer intelligenciájának mutatója a tudásreprezentáció szempontjából az, hogy a rendszer mennyire képes a szükséges (releváns) tudást a megfelelő időben felhasználni. Azok a rendszerek, amelyek nem rendelkeznek eszközökkel a releváns tudás azonosítására, elkerülhetetlenül szembesülnek a „kombinatorikus robbanás” problémájával. Elmondható, hogy ez a probléma az egyik fő ok, amely korlátozza a szakértői rendszerek alkalmazási körét. A tudáshoz való hozzáférés problémájában három szempont különíthető el: a tudás és az adatok összekapcsolása, a tudáshoz való hozzáférés mechanizmusa és az összehasonlítás módja.

A tudás összekapcsolása (aggregációja) a legfontosabb módja annak, hogy felgyorsítsuk a releváns tudás keresését. A legtöbb szakértő arra a következtetésre jutott, hogy a tudást a témakör legfontosabb objektumai (entitásai) köré kell szervezni. Minden tudás, amely egy bizonyos entitást jellemzi, társítva van, és külön tárgyként jelenik meg. Egy ilyen tudásszervezés mellett, ha a rendszernek információra van szüksége valamilyen entitásról, akkor keres egy objektumot, amely ezt az entitást írja le, majd az objektumon belül keres információt erről az entitásról. Az objektumokban az elemek közötti kapcsolatok két típusát célszerű megkülönböztetni: a külső és a belső kapcsolatok az elemeket egyetlen objektummá egyesítik, és az objektum szerkezetét hivatottak kifejezni. A külső kapcsolatok a szakterület tárgyai között fennálló kölcsönös függőséget tükrözik. Sok kutató a külső konnektívumokat adó- és asszociatív jellegűek közé sorolja. Az asszociatív hivatkozások célja, hogy olyan kapcsolatokat biztosítsanak, amelyek elősegítik a releváns ismeretek keresésének folyamatát.

A nagy tudásbázissal végzett munka során a fő probléma a megoldandó probléma szempontjából releváns tudás megtalálásának problémája. Mivel a feldolgozott adatok nem tartalmazhatnak kifejezett hivatkozásokat a feldolgozásához szükséges értékekre, a közvetlen hozzáférési módszernél (explicit referenciamódszer) általánosabb hozzáférési mechanizmusra van szükség. Ennek a mechanizmusnak az a feladata, hogy egy entitás bizonyos leírását használja a munkamemóriában, hogy a tudásbázisban olyan objektumokat találjon, amelyek megfelelnek ennek a leírásnak. Nyilvánvaló, hogy a tudás rendszerezése, strukturálása jelentősen felgyorsíthatja a keresési folyamatot.

Általában célszerű a kívánt objektumok megtalálását kétlépcsős folyamatnak tekinteni. Az első szakaszban, az asszociatív linkekkel történő kiválasztási folyamatnak megfelelően, előzetes kiválasztás történik a potenciális jelöltek tudásbázisában a kívánt objektumok szerepére. A második szakaszban, a potenciális jelöltek és a jelöltleírások összehasonlításának műveletével, a szükséges objektumok végső kiválasztása történik. Egy ilyen hozzáférési mechanizmus megszervezése során bizonyos nehézségek merülnek fel: Hogyan válasszuk ki a jelölt alkalmassági kritériumát? Hogyan szervezzük meg a munkát konfliktushelyzetekben? stb.

Az illesztési művelet nemcsak a kívánt objektum kiválasztásának eszközeként használható a jelöltek halmazából; osztályozásra, megerősítésre, bontásra és korrekcióra használható. Egy ismeretlen objektum azonosításához össze lehet hasonlítani néhány ismert mintával. Ez lehetővé teszi, hogy egy ismeretlen objektumot ismert mintaként soroljon be, összehasonlítva azzal, amellyel a legjobb eredményeket kapta. A keresés során az egyezést néhány lehetséges jelölt megerősítésére használják. Ha egy bizonyos ismert objektumot egy ismeretlen leírással hasonlít össze, akkor sikeres összehasonlítás esetén a leírás részleges bontása történik meg.

A párosítási műveletek nagyon változatosak. Általában a következő formákat különböztetjük meg: szintaktikai, parametrikus, szemantikai és kényszerített összehasonlítás. Sikeres az összehasonlítás, amely azonos mintákat eredményez. Általában úgy gondolják, hogy egy változó egy mintában azonos lehet egy másik minta bármely állandójával (vagy kifejezésével). Néha a mintában szereplő változóknak olyan követelmények vannak, amelyek meghatározzák, hogy milyen konstansokkal egyeztethetők. A szintaktikai egyeztetés eredménye bináris: a minták illeszkednek vagy nem. A paraméterillesztésnél olyan paramétert kell megadni, amely meghatározza az illesztés mértékét. A szemantikai összehasonlításnál nem az objektumok mintázata a korreláció, hanem a funkcióik. Kényszerített összehasonlítás esetén az egyik összehasonlított mintát egy másik szemszögéből veszik figyelembe. Más egyeztetési típusoktól eltérően itt mindig pozitív eredmény érhető el. A kérdés a kényszerítő hatalom. A kényszert tárgyakhoz kapcsolódó speciális eljárásokkal lehet végrehajtani. Ha ezek az eljárások nem egyeznek meg, akkor a rendszer arról számol be, hogy csak akkor lehet sikert elérni, ha a kérdéses entitások bizonyos részei illeszthetőnek tekinthetők.

Megoldások keresésének módszerei szakértői rendszerekben

A keresésre való redukáláson alapuló problémák megoldási módszerei attól függenek

pszichodiagnosztika a pszichoszomatikában, valamint más rendszerekben. annak a témakörnek a jellemzői, amelyben a problémát megoldják, és a felhasználó általi megoldás követelményeit. A témakör sajátosságai a megoldási módszerek szempontjából a következő paraméterekkel jellemezhetők:

méret, amely meghatározza a tér térfogatát, amelyben a megoldást keresik;

a terület változékonysága, a terület időbeli és térbeli változékonyságának mértékét jellemzi (itt statikus és dinamikus területeket különböztetünk meg);

a területet leíró modell teljessége jellemzi az adott terület leírására használt modell megfelelőségét. Általában, ha a modell nem teljes, akkor több modellt használnak a tartomány leírására, amelyek kiegészítik egymást a tárgyi tartomány különféle tulajdonságait tükrözve;

a megoldandó problémára vonatkozó adatok bizonyossága az adatok pontosságának (hibásságának) és teljességének (hiányosságának) mértékét jellemzi. A pontosság (hiba) annak mutatója, hogy a témakört a megoldandó feladatok szempontjából pontos vagy pontatlan adatok írják le; Az adatok teljessége (hiányossága) a bemeneti adatok elégségességét (elégtelenségét) jelenti egy probléma egyértelmű megoldásához.

A kereséssel megoldott probléma eredményével szemben támasztott felhasználói igények a megoldások számával, az eredmény tulajdonságaival és (vagy) a megszerzésének módszerével jellemezhetők. A "megoldások száma" paraméter a következő alapértékeket veheti fel: egy megoldás, több megoldás, minden megoldás. A "properties" paraméter határozza meg azokat a korlátozásokat, amelyeknek az eredményül kapott eredménynek vagy a megszerzési módszernek meg kell felelnie. Így például egy olyan rendszer esetében, amely a betegek kezelésére vonatkozó ajánlásokat ad ki, a felhasználó előírhat egy olyan követelményt, hogy ne használjon egy bizonyos gyógyszert (hiánya miatt, vagy azért, mert az adott beteg számára ellenjavallt). A „tulajdonságok” paraméter olyan jellemzőket is meghatározhat, mint a megoldási idő („legfeljebb”, „időtartomány”, stb.), az eredmény eléréséhez használt memória mennyisége, a használat kötelezettségének (lehetetlenségének) jelzése. tudás (adatok) stb.

Tehát a probléma komplexitása, amelyet a fenti paraméterek határoznak meg, az egyszerű alacsony dimenziós problémáktól, amelyekben bizonyos adatok megváltoztathatatlanok, és az eredményre és a megszerzési módra nincs korlátozás, a bonyolult, nagy dimenziós problémákig változó, hibás, ill. hiányos adatok és önkényes korlátozások az eredményre és a megszerzési módra vonatkozóan . Általános megfontolások alapján világos, hogy egyetlen módszer sem képes minden problémát megoldani. Egyes módszerek jellemzően csak a felsorolt ​​paraméterek egy részében jobbak másoknál.

Az alábbiakban tárgyalt módszerek statikus és dinamikus problémakörnyezetben is működhetnek. Ahhoz, hogy dinamikus körülmények között működjenek, figyelembe kell venni a változóértékek élettartamát, a változók adatforrását, valamint lehetőséget kell biztosítani a változóértékek történetének tárolására, a külső környezet modellezésére és a ideiglenes kategóriák a szabályokban.

A szakértői rendszerekben használt meglévő problémamegoldó módszerek az alábbiak szerint osztályozhatók:

keresési módszerek egy térben - a következő feltételek melletti használatra szánt módszerek: kis dimenziós területek, a modell teljessége, pontos és teljes adatok;

keresési módszerek hierarchikus terekben - olyan módszerek, amelyeket úgy terveztek, hogy nagy dimenziós területeken működjenek;

pontatlan és hiányos adatok keresési módszerei;

olyan keresési módszerek, amelyek több modellt használnak, és amelyeket úgy terveztek, hogy olyan területeken dolgozzanak, amelyek esetében egyetlen modell nem elegendő a megfelelő leíráshoz.

Feltételezhető, hogy a felsorolt ​​módszereket szükség esetén kombinálni kell, hogy lehetővé váljon olyan problémák megoldása, amelyek összetettsége több paraméterben egyszerre nő.

Instrumentális komplexum statikus szakértői rendszerek létrehozásához (az integrált ökokomplexum példáján)

Tekintsük a statikus ES létrehozására szolgáló eszközök jellemzőit az Orosz Informatikai és AP Kutatóintézetben kifejlesztett ECO komplex példáján. A komplexumot legsikeresebben ES-k létrehozására használják, amelyek diagnosztikai (műszaki és orvosi), heurisztikus értékelési (kockázati, megbízhatósági stb.), kvalitatív előrejelzési és képzési problémákat oldanak meg.

Az ECO komplexumot alkalmazzák: személyi számítógépeken kereskedelmi és ipari szakértői rendszerek létrehozására, valamint szakértői rendszerek prototípusainak gyors elkészítésére, hogy meghatározzák a tudásmérnöki módszerek alkalmazhatóságát egy-egy speciális problémakörben.

Az EKO komplexum alapján több mint 100 alkalmazott szakértői rendszert fejlesztettek ki. Közülük a következőket jegyezzük meg:

egyedi hibák keresése személyi számítógépben;

a hidraulikus építmények állapotának felmérése (Charvak vízerőmű);

üzleti levelek elkészítése külföldi partnerekkel folytatott levelezés során;

az immunológiai állapot szűrővizsgálatának elvégzése;

nem specifikus krónikus tüdőbetegségben szenvedő beteg mikrobiológiai vizsgálata indikációinak felmérése;

Tudásreprezentációs eszközök és menedzsment stratégiák

Az IVF komplex három összetevőből áll.

A komplexum magja az ECO szakértői rendszerek integrált héja, amely hatékony alkalmazások gyors létrehozását biztosítja az 1-es és 2-es típusú statikus problémakörnyezetekben az elemzési problémák megoldására.

A shell tudásreprezentációs eszközök fejlesztése során két fő célt tűztek ki: egy meglehetősen széles és gyakorlatilag jelentős problémakör hatékony megoldását személyi számítógépek segítségével; rugalmas lehetőségek a felhasználói felület leírására és a konzultációk lefolytatására konkrét alkalmazásokban. A tudás shellben történő ábrázolásakor speciális (privát) „attribútum-érték” típusú utasításokat és privát szabályokat használnak, amelyek lehetővé teszik a mintaillesztés erőforrás-igényes működésének kiküszöbölését és a kifejlesztett alkalmazások hatékonyságának elérését. A shell kifejezőképessége jelentősen bővült a külső programok konzultációs szkripten keresztüli hívásával, valamint az adatbázisokkal (PIRS és dBase IV) és külső programokkal való dokkolás által biztosított integrációnak köszönhetően. Az ECO shellben a tudásbázis gyenge strukturálása biztosított annak külön komponensekre osztása miatt - az egyes részfeladatok megoldására problémakörnyezetben - egy modell (az ECO "modell" fogalma megfelel a "modul" fogalmának). a G2 rendszer tudásbázisa).

Az ES fejlesztési technológia szempontjából a shell támogatja a felületes tudáson alapuló megközelítéseket és a megoldási folyamat strukturálását.

A shell két üzemmódban működik: tudásszerzési módban és konzultációs (problémamegoldó) módban. Az első módban az ES fejlesztő egy párbeszéd-szerkesztő segítségével beviszi a tudásbázisba egy adott alkalmazás leírását a shell tudásábrázolási nyelv szempontjából. Ez a leírás egy kimeneti hálózatba van összeállítva, amely közvetlen címkapcsolatokkal rendelkezik konkrét utasításokhoz és szabályokhoz. A második módban a shell konkrét felhasználói feladatokat old meg interaktív vagy kötegelt módban. Ebben az esetben a döntések a céloktól az adatokig származnak (fordított érvelés).

A shell képességeinek bővítése érdekében a mély tudással való munkavégzés érdekében az EKO komplexum kiegészíthető a K-EKO komponenssel (knowledge specifier), amely lehetővé teszi a problémakörnyezetek mintáinak leírását általános (absztrakt) objektumok és szabályok szerint. A C-ECO-t a tudásszerzés szakaszában használják párbeszédpanel shell-szerkesztő helyett, hogy az általános leírásokat konkrét következtetési hálózatokká alakítsák, amelyek lehetővé teszik a megoldások hatékony következtetését az ECO shell használatával. Így a konkretizáló használata lehetővé teszi a 2-es típusú problémás környezetek kezelését (lásd a 3. fejezetet).

A komplexum harmadik összetevője az ILI rendszer, amely lehetővé teszi az ES létrehozását statikus problémakörnyezetekben az adatok induktív általánosításával (példák), és olyan alkalmazásokban használható, ahol a problémakörnyezet mintázatait tükröző szabályok hiánya kompenzálva van. kiterjedt kísérleti anyaggal. Az ILIS rendszer a legegyszerűbb specifikus szabályok automatikus generálását és ezek alapján önálló problémamegoldást biztosít; Ebben az esetben a felhasználóval folytatott párbeszéd merev sémáját alkalmazzák. Mivel a valós alkalmazások készítésekor a szakértők általában a problémakörnyezet mintázataira vonatkozó ismereteket és a kísérleti anyagot is bemutatják (egyes részfeladatok megoldásához), szükség van az ILI rendszer által generált szabályok alkalmazására a bonyolultabb tudáseszközök keretein belül. reprezentáció. Az ECO komplex biztosítja az ilyen szabályok automatikus fordítását ECO shell formátumba. Ennek eredményeként lehetőség nyílik a valós problémakörnyezet teljes (megfelelő) ábrázolására, valamint az elektronikus rendszer és a végfelhasználó közötti interakció szervezésének rugalmas leírására.

Eszközkészlet valós idejű szakértői rendszerek létrehozásához (a g2-gensym corp., USA integrált környezet példájával)

A valós idejű ES létrehozására szolgáló IP fejlesztésének története 1985-ben kezdődött, amikor a Lisp Machine Inc. kiadta a Picon rendszert Symbolics számítógépekhez. Ennek az IP-nek a sikere arra késztette a Picon vezető fejlesztőinek csoportját, hogy 1986-ban megalakítsák a Gensym nevű magáncéget, amely a Piconban rejlő ötleteket jelentősen továbbfejlesztve 1988-ban a G2 nevű IP 1.0-s verziójával lépett piacra. Jelenleg a 4.2-es verzió működik, az 5.0-s verzió pedig készül a kiadásra.

A Gensym (USA) szoftvertermékeinek fő célja, hogy segítsék a vállalkozásokat legtehetségesebb és legképzettebb alkalmazottaik tudásának és tapasztalatának megőrzésében és felhasználásában olyan intelligens, valós idejű rendszerekben, amelyek javítják a termékminőséget, a gyártás megbízhatóságát és biztonságát, valamint csökkentik a termelési költségeket. Hogy a Gensym hogyan birkózik meg ezzel a feladattal, azt bizonyítja, hogy ma az irányítási rendszerekben használt szakértői rendszerek világpiacának 50%-át birtokolja.

A Gensym mögött 2-3 éves késéssel más cégek elkezdték saját IS-t létrehozni az RT ES számára. Független NASA-szakértők szempontjából, akik átfogó tanulmányt készítettek egyes felsorolt ​​rendszerek jellemzőiről és képességeiről, jelenleg a legfejlettebb IS természetesen továbbra is a G2 (Gensym, USA); a következő helyeket jelentős késéssel (a G2 képességeinek kevesebb mint 50%-a valósítják meg) az RTWorks - Talarian (USA), COMDALE/C (Comdale Techn. - Kanada), COGSYS (SC - USA), ILOG Rules (ILOG) foglalja el. - Franciaország).

Feladatosztályok, amelyekre a G2 és hasonló rendszereket szánják:

valós idejű megfigyelés;

legfelső szintű vezérlőrendszerek;

Hibaészlelő rendszerek;

diagnosztika;

ütemezés;

tervezés;

optimalizálás;

kezelői tanácsadó rendszerek;

tervezési rendszerek.

A Gensym eszközei evolúciós lépést jelentenek a hagyományos szakértői rendszerek fejlesztésében a statikus tématerületektől a dinamikusakig. A Gensym sikerének jelentős részét azok az alapelvek biztosítják, amelyeket új fejlesztései során betart:

probléma/tárgy orientáció;

szabványok betartása;

függetlenség a számítástechnikai platformtól;

felfelé kompatibilitás a korábbi verziókkal;

univerzális képességek, függetlenül a megoldandó feladattól;

technológiai alapok biztosítása alkalmazási rendszerek számára;

kényelmes fejlesztési környezet;

új utak keresése a technológia fejlesztésére;

elosztott kliens-szerver architektúra;

nagy teljesítményű.

A G2 szakértői rendszerhéj fő előnye az orosz felhasználók számára, hogy integráló komponensként használható, amely lehetővé teszi az interfészek nyitottsága és a számítástechnikai platformok széles skálájának támogatása miatt a meglévő, eltérő rendszerek egyszerű kombinálását. automatizálási eszközöket egyetlen integrált irányítási rendszerré, amely lefedi a termelési tevékenységek minden aspektusát – a formációs rendelési portfóliótól a folyamatirányításig és a késztermék-szállításig. Ez különösen fontos a hazai vállalkozások számára, amelyek hardver- és szoftverflottája jórészt véletlenszerűen, a gazdaság éles ingadozásainak hatására alakult ki.

A G2 rendszeren, mint alapvető fejlesztői eszközön kívül a Gensym egy sor probléma-/tárgy-orientált bővítményt kínál speciális grafikus nyelveken alapuló komplex dinamikus rendszerek gyors megvalósításához, beleértve a paraméterezhető operátorblokkokat a technológiai folyamat elemeinek megjelenítéséhez és tipikusan. információfeldolgozási feladatok. A Gensym munkakörnyezet-készlete, problémaorientáció szerint csoportosítva, lefedi a gyártási folyamat minden szakaszát, és így néz ki:

intelligens gyártásirányítás - G2, G2 Diagnostic Assistant (GDA), NeuroOn-Line (NOL), Statisztikai folyamatvezérlés (SPC), BatchDesign_Kit;

működési tervezés - G2, G2 Scheduling Toolkit (GST), Dynamic Scheduling Packadge (DSP);

gyártási folyamatok fejlesztése és modellezése - G2, ReThink, BatchDesign_Kit;

üzemeltetés és vállalati hálózatkezelés - G2, Fault Expert.

Annak ellenére, hogy a G2 rendszer első változata nem is olyan régen - 1988-ban - jelent meg, még a gazdag Amerikában sem nevezte senki olcsónak. A G2 a szoftverpiac bestsellerének nevezhető - 1996 elején több mint 5000 példányt telepítettek belőle a világon. A Gensym több mint 30 iparágat szolgál ki, az űrkutatástól az élelmiszergyártásig. A G2-felhasználók listája úgy néz ki, mint a globális iparág ki-kicsoda. A világ legnagyobb ipari vállalatai közül 25 használja a G2-t. Több mint 500 aktív alkalmazás íródott a G2 alapján.

Mi magyarázza a G2 hangszeres komplexum sikerét? Először is, a G2 egy dinamikus rendszer a szó teljes értelmében. A G2 egy objektum-orientált integrált környezet tudásbázisokat használó valós idejű alkalmazások fejlesztésére és karbantartására. A G2 a legtöbb létező platformon működik (9.1. táblázat). A G2 tudásbázis a szokásos módon mentésre kerül

9.1. táblázat Platformok, amelyeken a G2 működik

Cég gyártója

Számítógépes rendszer

Működési környezet

VAX Zxxx, 4xxx, bxxx,

7xxx, 8xxx, 9xxx

DECstation Zxxx, bxxx

Nyissa meg a VMS, OSF/1,

SPARC 1,2, 10, LX,

Sun OS/Solaris 1, Solaris

Hewlett-Packard

HP9000/4хх, 7хх, 8хх

Szilícium Grafika

Intel 486/Pentium

Windows NT, Windows-95

9. ELŐADÁS TEREMTÉSWEBOLDALAK ÖSSZEFOGLALÓ ÁBRÁKAT

A kimutatáslista összetevő használatának legegyszerűbb módja, ha a Microsoft Excel kimutatástábláját weboldalként menti. Ehhez válassza a Fájl | menüpontot Mentés weblapként, a megjelenő párbeszédpanelen kattintson a Közzététel gombra, a párbeszédpanelen válassza az Elemek az 1. lapon opciót a Select legördülő listából, majd a Kimutatást, jelölje be az Interaktivitás hozzáadása a következővel opciót, és válassza a Kimutatás funkciót innen. a listát.

Ezután, ha szükséges, módosítsa a címet, amely megjelenik a jövőbeni weboldalon, és mentse el. Ha megnyitjuk ezt az oldalt a Microsoft Internet Explorerben, látni fogjuk, hogy tartalmaz egy kimutatáslistát, egy ActiveX-vezérlőt, amelyet az OLAP adatok és pivot táblák weboldalakon vagy Windows alkalmazásokban való megtekintésére terveztek (2. ábra).

Azonnal jegyezzük meg, hogy ez a vezérlő csak helyi hálózaton használható olyan számítógépeken, amelyekhez Microsoft Office licencet vásároltak; ennek egyéb felhasználását, például az interneten elérhető weboldalakon, a licencszerződés tiltja.

A PivotTable List összetevő jellemzői

Ebben az előadásban röviden áttekintjük a PivotTable List összetevő által biztosított lehetőségeket.

Az ezt a komponenst böngészőben vagy Windows-alkalmazásban manipuláló felhasználó, mint egy Excel pivot táblában, áthelyezheti az adatokat a sorok, oszlopok és oldalak területére (a Microsoft Office Web Components a sorterület, az oszlopterület és a szűrő kifejezéseket használja Terület) a párbeszédpanelről, amely az Excel 2013 kimutatástáblázatának mezőlista paneljére emlékeztet. A méretek és mértékek listáját tartalmazó párbeszédpanel jelenik meg, amikor a Kimutatáslista összetevő eszköztárán a Mezőlista gombra kattint.

A felhasználó a „+” ikonokra kattintva lefúrási műveletet is végezhet (4. ábra).

A PivotTable List összetevő lehetővé teszi az adatok rendezését és szűrését. Először is az adatszűrést úgy végezhetjük el, hogy csak a kiválasztott dimenziótagokat jelenítjük meg, ami a megfelelő Excel listához hasonló legördülő listában ellenőrizhető.

Másodszor, a Parancsok és beállítások párbeszédpanel használatával (ez a Kimutatáslista komponens eszköztárának megfelelő gombjával jeleníthető meg) kiválaszthatja az adatok szűrésének és csoportosításának módszereit (például a legnagyobb vagy a legkisebb szám megjelenítése). értékek - Top 5, Top 10, Bottom 25 stb.

Ezen kívül a felhasználó módosíthatja az adatmegjelenítési attribútumokat - szövegszín és betűtípus, háttérszín, szövegigazítás, megjelenítés stb. Ehhez egyszerűen vigye a kurzort az egyik adatelemre, amelynek attribútumait módosítani szeretné (például egy dimenziótag nevére, egy összegző adatokat tartalmazó cellára vagy összesen értékekkel), és jelölje ki az új attribútumokat a megjelenítéshez. az ilyen típusú adatokat ugyanazon a Parancsok és beállítások párbeszédpanelen.

Ezenkívül a PivotTable List komponens lehetővé teszi a teljes összeg vagy a szülődimenziós tagnak megfelelő összeg (például az adott negyedévben kapott éves nyereség százalékos aránya) részesedésének vagy százalékos arányának kiszámítását az összesített adatok alapján - a megfelelő opciók az adatelemek helyi menüjében találhatók.

A felhasználó hozzáfér egy speciálisan számára kialakított súgófájlhoz is (orosz nyelven, ha a Microsoft Office XP orosz verziójában található webes összetevőket használják). A felhasználó azonban nem módosíthatja az adatforrást és nem jeleníthet meg más OLAP kockát a weboldalon, mivel erre csak a weboldal fejlesztőjének van joga (és ehhez külön súgófájl van, ami jelentősen eltér a a felhasználónak szánták – különösen az összetevő objektummodelljéről tartalmaz információkat).

Ne feledje, hogy a Microsoft FrontPage segítségével hasonló weboldalt lehet létrehozni. Kimutatáslista beszúrásához a FrontPage-ben létrehozott weboldalba válassza a Beszúrás | webösszetevőt, és a megjelenő párbeszédpanelen válassza az Office PivotTable elemet a Táblázatok és diagramok részben.

Miután a PivotTable List összetevő megjelenik a weboldalon, kattintson a hipertext hivatkozásra, amely az adatforrás meghatározását kéri, majd válasszon ki egy ODBC-forrást a listából (vagy írja le, ha még nem szerepel a listában; ennek mikéntjét a sorozat előző cikkében ismertettük). Adatforrásként használhat egy kiszolgálói OLAP-kockát vagy egy Excel segítségével létrehozott helyi kockát (valamint bármely ODBC-forrás lekérdezésének eredményét, amely normál „lapos” adatkészletet ad vissza). Végül, ha szükséges, megjelenítheti a PivotTable mezőlista párbeszédpanelt, és áthelyezheti a dimenziók és mértékek neveit az összetevő megfelelő területeire.

Ne feledje, hogy a Parancsok és beállítások párbeszédpanel Adatforrás oldala csak a fejlesztés során érhető el (azaz a FrontPage-ben, vagy ha a kimutatáslista-összetevőt nem weboldalon, hanem más Windows-alkalmazásban használják, akkor abban a fejlesztőeszközben, amellyel ez létre az alkalmazás). Más szóval, a végfelhasználó nem tudja megváltoztatni az adatforrást, ezt csak a fejlesztő teheti meg.

Weboldalak létrehozása PivotChartokkal

A Microsoft Office Web Components lehetővé teszi egy kimutatásdiagram összeállítását is a kimutatáslista-összetevőben megjelenített adatok alapján. Erre a célra a ChartSpace vezérlőt használják, amely szintén a Microsoft Office Web Components része. Weboldalra helyezéséhez válassza a Beszúrás | menüpontot a FrontPage menüből. webösszetevőt, és a megjelenő párbeszédpanelen válassza az Office Chart elemet a Táblázatok és diagramok részben.

A diagram létrehozásának következő lépése annak az adatforrásnak a kiválasztása, amelyből felépíteni szeretné. Esetünkben ez a már meglévő kimutatáslista komponens lesz.

Megjegyzendő, hogy az eredményül kapott pivot diagram megközelítőleg ugyanazokkal a funkciókkal rendelkezik, mint a sorozat előző cikkében tárgyalt Excel pivot diagram (például ez a komponens lehetővé teszi a méretek és mértékek nevének áthúzását az egérrel a diagram különböző területeit, és válassza ki a megjelenített dimenziótagokat), és a diagram és a kimutatástábla változásai szinkronban történnek, mint az OLAP-kockaadatok Excelben való megjelenítésekor.

Az OLAP-kockán alapuló pivot diagram közvetlenül is létrehozható a ChartSpace komponens használatával. Ehhez weblap létrehozásakor le kell írnia az adatforrást a Parancsok és beállítások párbeszédpanel Adatrészletek oldalán.

És végül egy másik módja annak, hogy pivot diagramot tartalmazó weboldalt hozzon létre. Ez egy Excel pivot diagram weblapként történő mentéséből áll. Ebben az esetben azonban a létrehozott diagramhoz társított kimutatáslista összetevő automatikusan felkerül ugyanarra az oldalra.

Ahogy fentebb említettük, a kimutatások listája és a ChartSpace összetevői alkalmazásokban is használhatók. Ehhez szüksége lesz egy fejlesztőeszközre, amely támogatja az ActiveX-vezérlők használatát az űrlapokon (például Microsoft Visual Basic, Microsoft Visual C++, Borland Delphi, Borland C++Builder). Az ilyen alkalmazások létrehozása iránt érdeklődő fejlesztők olvassák el a témában korábban megjelent cikkeinket (például „A Microsoft Office összetevőinek használata alkalmazásokban.

A matematikai statisztika híres amerikai szakértője által 1977-ben írt könyv a feltáró adatelemzés alapjait vázolja, i.e. a megfigyelési eredmények elsődleges feldolgozása, a legegyszerűbb eszközökkel - ceruzával, papírral és tárgylemezzel. A szerző számos példán keresztül bemutatja, hogy a megfigyelések diagramok, táblázatok és grafikonok segítségével vizuális formában történő bemutatása hogyan teszi könnyebbé a minták azonosítását és a mélyebb statisztikai feldolgozás módszereinek kiválasztását. Az előadást számos gyakorlat kíséri gazdag gyakorlati anyagok felhasználásával. Az élénk, figuratív nyelvezet megkönnyíti a bemutatott anyag megértését.

John Tukey. A megfigyelési eredmények elemzése. Feltáró elemzés. – M.: Mir, 1981. – 696 p.

Az absztrakt (összefoglaló) letöltése vagy formátumban, a példák formátumban

A jegyzet megjelenése idején a könyv csak használt könyvesboltokban található.

A szerző a statisztikai elemzést két szakaszra osztja: feltáró és megerősítő szakaszra. Az első szakasz a megfigyelési adatok transzformációját és vizuális bemutatásának módjait foglalja magában, lehetővé téve az adatokban megjelenő belső minták azonosítását. A második szakaszban hagyományos statisztikai módszereket alkalmaznak a paraméterek becslésére és a hipotézisek tesztelésére. Ez a könyv a feltáró adatelemzésről szól (a megerősítő elemzéshez lásd ). A könyv elolvasásához nem szükséges a valószínűségszámítás vagy a matematikai statisztika előzetes ismerete.

jegyzet Baguzin. Tekintettel a könyv írásának évére, a szerző az adatok ceruzával, vonalzóval és papírral (néha milliméterpapírral) történő vizuális megjelenítésére összpontosít. Véleményem szerint az adatok mai vizuális megjelenítése a PC-hez kapcsolódik. Ezért igyekeztem a szerző eredeti ötleteit és feldolgozásait Excelben ötvözni. A megjegyzéseim behúzottak.

1. fejezet: SZÁMÍRÁS ("SZÁK LEVELEKKEL")

A gráf akkor a legértékesebb, ha arra kényszerít bennünket, hogy észrevegyünk valamit, amit nem is vártunk. A számok szárként és levelként való ábrázolása mintákat tár fel. Például, ha tízeseket veszünk a szár alapjául, a 35-ös szám a 3-as szárhoz köthető. A levél 5-tel lesz egyenlő. A 108-as számnál a szár 10, a levél 8.

Példaként vettem 100 véletlenszerű számot a normál törvény szerint elosztva 10-es átlaggal és 3 szórással. Az ilyen számok meghatározásához a =NORM.INV(RAND();10;3) képletet használtam. 1. ábra). Nyissa meg a csatolt Excel fájlt. Az F9 megnyomásával egy új véletlenszerű számsort generál.

Rizs. 1. 100 véletlenszerű szám

Látható, hogy a számok főként az 5-től 16-ig terjedő tartományban oszlanak meg. Érdekes mintát azonban nehéz észrevenni. A szár és levél parcellája (2. ábra) normális eloszlást mutat. A szomszédos számpárokat, például a 4-5-öt vettük törzsnek. A levelek az adott tartományban lévő értékek számát tükrözik. Példánkban 3 ilyen érték van.

Rizs. 2. Szár és levél telek

Az Excel két lehetőséggel rendelkezik, amelyek lehetővé teszik a gyakorisági minták gyors tanulmányozását: a FREQUENCY függvény (3. ábra; további részletekért lásd) és a pivot táblák (4. ábra; további részletekért lásd a részt Numerikus mezők csoportosítása).

Rizs. 3. Elemzés a FREQUENCY tömbfüggvénnyel

Rizs. 4. Elemzés pivot táblák segítségével

A leveles szár formájában történő ábrázolás (frekvenciaábrázolás) lehetővé teszi az adatok következő jellemzőinek azonosítását:

  • csoportokra osztás;
  • aszimmetrikus csökkenés a végek felé - az egyik „farok” hosszabb, mint a másik;
  • váratlanul „népszerű” és „népszerűtlen” jelentések;
  • Milyen érték köré „központosulnak” a megfigyelések?
  • milyen széles az adatok terjedése.

2. fejezet EGYSZERŰ ADATOK ÖSSZEFOGLALÁSA – NUMERIKUS ÉS GRAFIKUS

A számok levelekkel ellátott szárként való ábrázolása lehetővé teszi a minta összképének érzékelését. Azzal a feladattal állunk szemben, hogy megtanuljuk a minták legáltalánosabb jellemzőit tömör formában kifejezni. Erre a célra adatösszesítéseket használunk. Bár az összefoglalók nagyon hasznosak lehetnek, nem adják meg a minta minden részletét. Ha nincs elég részlet ahhoz, hogy zavarba jöjjön, akkor a legjobb, ha előttünk áll a teljes adat, számunkra egyértelműen kényelmesen kirakva. Nagy adathalmazok esetén összefoglalásra van szükség. Nem áll szándékunkban és nem is várjuk el, hogy a teljes adatot lecseréljék. Természetesen gyakran előfordul, hogy a részletek hozzáadása nem ad sokat hozzá, de fontos észrevenni, hogy néha a részletek sokat adnak hozzá.

Ha a minta egészének jellemzéséhez több könnyen megtalálható számot kell kiválasztanunk, akkor valószínűleg szükségünk lesz:

  • szélsőséges értékek - a legnagyobb és a legkisebb, amelyeket az „1” szimbólummal jelölünk (rangjuknak vagy mélységüknek megfelelően);
  • valami átlagos érték.

Középső= medián érték.

A levelekkel ellátott szárként ábrázolt sorozatok esetén a mediánértéket könnyen megtalálhatjuk úgy, hogy bármelyik végétől befelé számolunk, és a szélső értékhez „1”-es rangot rendelünk. Így a mintában minden érték megkapja a sajátját rang. A számolást bármelyik végéről kezdheti. Az így kapott két rang közül azt a kisebbet fogjuk hívni, amelyik ugyanahhoz az értékhez rendelhető mélység(5. ábra). A szélsőérték mélysége mindig 1.

Rizs. 5. Mélység meghatározása két rangsorolási irány alapján

medián mélysége (vagy rangja) = (1 + értékek száma)/2

Ha további két számot akarunk összeadni, hogy egy 5 számból álló összegzést kapjunk, akkor természetes, hogy ezeket úgy határozzuk meg, hogy az egyes végektől a mediánig mért távolság feléig számolunk. A medián, majd ezeknek az új értékeknek a megtalálásának folyamata úgy is felfogható, mint egy papírlap hajtogatása. Ezért természetes, hogy ezeket új értékeknek nevezzük redők(ma már gyakrabban használják ezt a kifejezést kvartilis).

Összecsukva egy 13 értékből álló sorozat így nézhet ki:

Öt szám a sorozat jellemzésére növekvő sorrendben: –3,2; 0,1; 1,5; 3,0; 9,8 - egy a sor minden inflexiós pontján. Az 5 számból álló összegzést alkotó öt számot (szélsőségek, hajtások, medián) a következő egyszerű diagrammal ábrázoljuk:

ahol a bal oldalon a számok számát (# jellel jelölve), a medián mélységét (M betűvel), a hajtások mélységét (C betűvel) és a szélső értékek mélységét mutattuk (mindig 1, nem kell mást jelölni).

ábrán. A 8. ábra bemutatja, hogyan lehet grafikusan megjeleníteni egy 5 számból álló összegzést. Ezt a fajta cselekményt „bajuszdoboznak” nevezik.

Rizs. 8. Sematikus diagram vagy doboz bajuszokkal

Sajnos az Excel alapértelmezés szerint csak három vagy négy érték alapján készít részvénydiagramokat (9. ábra; nézze meg, hogyan kerülheti meg ezt a korlátozást). Az 5 számból álló összesítés elkészítéséhez használhatja az R statisztikai csomagot (10. ábra; további információkért lásd: Alapvető R grafikus képességek: tartomány diagramok; ha nem ismeri az R csomagot, kezdje el). Az R-ben található boxplot() függvény 5 számon kívül kiugró értékeket is tükröz (ezekről később).

Rizs. 9. A részvénydiagramok lehetséges típusai az Excelben

Rizs. 10. Boxplot R-ben; egy ilyen grafikon elkészítéséhez futtassa a boxplot(count ~ spray, data = InsectSprays) parancsot, a programban tárolt adatok betöltődnek és a bemutatott grafikon felépül

Ha doboz- és bajuszdiagramot készítünk, ragaszkodunk a következő egyszerű diagramhoz:

  • "C-szélesség" = két hajtás értéke közötti különbség;
  • A „lépés” a C-szélességnél másfélszer nagyobb érték;
  • „belső akadályok” a hajtásokon kívül helyezkednek el, egy lépés távolságra;
  • „külső akadályok” - a külső egy lépéssel messzebb van, mint a belső;
  • a belső és a szomszédos külső akadályok közötti értékek „külsőek” lesznek;
  • a külső korlátok mögötti értékeket „pattogónak” (vagy kiugrónak) nevezzük;
  • "tartomány" = szélső értékek közötti különbség.

Rizs. 19. A mozgó medián kiszámítása: (a) az adatok egy részére részletesen; b) a teljes mintára

Rizs. 20. Simított görbe

10. fejezet KÉT TÉNYEZŐS ELEMZÉS HASZNÁLATA

Itt az ideje, hogy fontolóra vegyük a kéttényezős elemzést, mind fontossága miatt, mind azért, mert bevezető a különböző kutatási módszerekbe. A kéttényezős táblázat (választábla) a következőkön alapul:

  • egyfajta válasz;
  • két tényező – és mindegyik minden megfigyelésben megnyilvánul.

A maradékok kéttényezős táblázata. Sor-plusz-oszlop elemzés.ábrán. A 21. ábra az átlagos havi hőmérsékletet mutatja Arizona három helyén.

Rizs. 21. Átlagos havi hőmérséklet három arizonai városban, °F

Határozzuk meg az egyes helyszínek mediánját, és vonjuk ki az egyes értékekből (22. ábra).

Rizs. 22. Közelítő értékek (mediánok) az egyes városokra és maradékokra

Most határozzuk meg az egyes sorok közelítését (mediánját), és vonjuk ki a sorértékekből (23. ábra).

Rizs. 23. Közelítő értékek (mediánok) minden hónapra és maradékokra

ábrához 23 bevezetjük a „hatás” fogalmát. A -24,7 szám az oszlophatást jelöli, a 19,1 szám pedig a soreffektust. A hatás azt mutatja meg, hogy egy tényező vagy faktorhalmaz hogyan jelenik meg az egyes megfigyelt mennyiségekben. Ha a faktor megjelenő része nagyobb, mint ami megmarad, akkor könnyebb átlátni és megérteni, hogy mi történik az adatokkal. Az összes adatból kivétel nélkül levont számot (itt 70,8) „összesnek” nevezzük. Ez az összes adatra jellemző összes tényező megnyilvánulása. Így az ábra szerinti értékekhez. 23 a képlet helyes:

Ez a speciális sor-PLUSZ-oszlop elemzési séma. Visszatérünk régi trükkünkhöz, hogy megpróbáljunk egyszerű részleírást találni – egy könnyebben észlelhető részleírást – egy olyan részleírást, amelynek kivonása mélyebb pillantást ad arra, amit még nem írtak le.

Milyen új dolgokat tanulhatunk a teljes kétváltozós elemzésből? A legnagyobb, 1,9-es maradvány kicsi ahhoz képest, hogy a hatás tételenként és hónapról hónapra változik. A zászlórúd körülbelül 25 °F-al hűvösebb, mint a Phoenix, míg a Yuma 5-6 °F-kal melegebb, mint a Phoenix. A havi hatások sorozata hónapról hónapra monoton csökken, először lassan, majd gyorsan, majd ismét lassan. Ez hasonló az októberi szimmetriához (korábban megfigyeltem egy ilyen mintát a naphossz példáján; lásd. - jegyzet Baguzina); Mindkét fátylat eltávolítottuk - az évszak hatását és a hely hatását. Ezek után elég sok olyan dolgot láthattunk, ami korábban észrevétlen maradt.

ábrán. 24 adott kéttényezős diagram. Bár ezen az ábrán a fő dolog a közelítés, nem szabad figyelmen kívül hagynunk a maradékokat. Négy ponton rövid függőleges vonalakat húztunk. Ezen vonalak hossza megegyezik a megfelelő maradékok értékével, így a második végek koordinátái nem a közelítő értékeket jelentik, hanem

Adat = közelítés PLUSZ maradék.

Rizs. 24. Kéttényezős diagram

Vegye figyelembe azt is, hogy ennek vagy bármely más kéttényezős diagramnak az a tulajdonsága, hogy „a lépték csak egy irányban van”, megadva a függőleges méretet, pl. szaggatott vízszintes vonalak a kép oldalai mentén, és vízszintes irányban a méret hiánya.

Az Excel képességeiről lásd. Érdekes, hogy a jegyzetben használt képletek egy része a Tukey nevet viseli

A további bemutatás szerintem eléggé bonyolultra sikeredett...

Ez a fejezet a Táblázatok felépítése és elemzése című fejezet témáját folytatja. Javasoljuk, hogy tekintse át, majd kezdje el olvasni ezt a szöveget és a STATISTICA gyakorlatokat.

A korrespondenciaanalízis (angolul coirespondence analysis) egy feltáró elemzési módszer, amely lehetővé teszi a nagydimenziós kontingenciatáblázatok szerkezetének vizuális és numerikus vizsgálatát.

A levelezéselemzést jelenleg intenzíven alkalmazzák különböző területeken, különösen a szociológiában, közgazdaságtanban, marketingben, orvostudományban, városvezetésben (lásd például Thomas Werani, Correspondence Analysis as a Means for Developing City Marketing Strategies, 3rd International Conference on Recent Advances in Retailing and Services Science, 22-25. o., 1996. június, Telfs-Buchen (Osterreich) Werani, Thomas).

A módszernek ismertek alkalmazásai a régészetben, szövegelemzésben, ahol fontos az adatstruktúrák vizsgálata (lásd Greenacre, M. J., 1993, Correspondence Analysis in Practice, London: Academic Press).

Íme néhány további példa:

  • A lakosság társadalmi csoportjainak vizsgálata a különböző régiókban, az egyes csoportok kiadási tételeivel.
  • Az ENSZ szavazási eredményeinek alapkérdésekre vonatkozó tanulmányai (1 - igen, 0 - ellen, 0,5 - tartózkodott, például 1967-ben 127 országot vizsgáltak 13 fontos kérdésben) azt mutatják, hogy az első faktor szerint az országok egyértelműen két csoportra oszlik: az egyik az USA, a másik a Szovjetunió központja (a világ bipoláris modellje). Más tényezők izolacionizmusként, nem szavazásként stb.
  • Autóimport kutatása (autómárka - táblázatsor, gyártási ország - oszlop).
  • Az őslénytanban használt táblák vizsgálata, amikor az állati csontvázak szétszórt részeiből vett minta alapján megpróbálják osztályozni (a lehetséges típusok valamelyikéhez rendelni: zebra, ló stb.).
  • Szövegek kutatása. A következő egzotikus példa ismert: a New-Yorker magazin egy elnökválasztási kampányról szóló botrányos könyv névtelen szerzőjének azonosítását kérte a nyelvészektől. A szakértők 15 lehetséges szerző szövegét, illetve egy névtelen kiadvány szövegét kínálták fel a szakértőknek. A szövegeket táblázatsorok ábrázolták. Az i sor feljegyezte egy adott j szó gyakoriságát. Így készenléti táblázatot kaptunk. A botrányos szöveg legvalószínűbb szerzőjét levelezéselemző módszerrel határozták meg.

A korrespondenciaanalízis alkalmazása az orvostudományban az adott tünet meglétét vagy hiányát mutató indikátorváltozókat tartalmazó komplex táblázatok szerkezetének vizsgálatával függ össze. Az ilyen típusú táblázatok nagy dimenzióval rendelkeznek, szerkezetük tanulmányozása nem triviális feladat.

Az összetett objektumok vizualizálásának problémáit is lehet tanulmányozni, vagy legalábbis megközelítést találni korrespondenciaanalízissel. A kép egy többdimenziós táblázat, és a feladat egy olyan sík megtalálása, amely lehetővé teszi az eredeti kép minél pontosabb reprodukálását.

A módszer matematikai alapjai. A korrespondenciaelemzés a khi-négyzet statisztikára támaszkodik. Elmondhatjuk, hogy ez a Pearson khi-négyzet statisztika új értelmezése.

A módszer sok tekintetben hasonlít a faktoranalízishez, azonban ettől eltérően itt kontingenciatáblázatokat vizsgálunk, és a többdimenziós táblázat reprodukálásának minőségi kritériuma egy kisebb dimenziójú térben a khi-négyzet statisztika értéke. Informálisan korrespondenciaelemzésről beszélhetünk kategorikus adatok faktoranalíziseként, és tekinthetjük a dimenziócsökkentés módszerének is.

Tehát az eredeti táblázat sorait vagy oszlopait a térben lévő pontok képviselik, amelyek között a khi-négyzet távolságot számítjuk (hasonlóan ahhoz, ahogy a khi-négyzet statisztikát a megfigyelt és a várható gyakoriságok összehasonlítására számítjuk).

Ezután meg kell találni egy kisdimenziós, általában kétdimenziós teret, amelyben a számított távolságok minimálisan torzulnak, és ebben az értelemben a lehető legpontosabban reprodukálni kell az eredeti táblázat szerkezetét, miközben megőrizzük a jellemzők közötti kapcsolatokat (ha ha van elképzelése a többdimenziós skálázási módszerekről, ismerős dallamot fog érezni).

Tehát egy szabályos kontingencia táblából indulunk ki, vagyis egy olyan táblából, amelyben több jellemző van konjugálva (a kontingenciatáblázatokról bővebben a Táblázatok felépítése és elemzése című fejezetben olvashat).

Tételezzük fel, hogy vannak adatok egy adott cég alkalmazottainak dohányzási szokásairól. Hasonló adatok érhetők el a Smoking.sta fájlban, amely a STATISTICA rendszer szabványos példakészletében található.

Ebben a táblázatban a dohányzás attribútum az attribútum pozíciójához van társítva:

Alkalmazottak csoportja

(1) Nemdohányzók

(2) Enyhe dohányosok

(3) Mérsékelten dohányosok

(4) Erős dohányosok

Összesen soronként

(1) Felsőbb vezetők

(2) Junior menedzserek

(3) Vezető alkalmazottak

(4) Ifjúsági alkalmazottak

(5) Titkárok

Összesen oszloponként

Ez egy egyszerű kétbemenetes kontingenciatábla. Nézzük először a sorokat.

Feltételezhetjük, hogy a táblázat minden sorának első 4 száma (a határgyakoriságokat, vagyis az utolsó oszlopot nem vesszük figyelembe) a sor koordinátái 4-dimenziós térben, ami azt jelenti, hogy formálisan ki tudjuk számítani a e pontok (a táblázat sorai) közötti khi-négyzet távolságok.

Ezeknél a határfrekvenciáknál lehetőség van ezeknek a pontoknak a megjelenítésére egy 3-as dimenziójú térben (a szabadsági fokok száma 3).

Nyilvánvaló, hogy minél kisebb a távolság, annál nagyobb a hasonlóság a csoportok között, és fordítva - minél nagyobb a távolság, annál nagyobb a különbség.

Most tegyük fel, hogy találunk egy alacsonyabb dimenziójú teret, mondjuk a 2-es dimenziót, amely olyan sorpontokat reprezentál, amely megőrzi az összes, pontosabban majdnem minden információt a sorok közötti különbségekről.

Ez a megközelítés nem biztos, hogy hatékony a fentihez hasonló kis táblák esetén, de hasznos nagy táblák esetén, például a marketingkutatás során.

Például, ha 15 féle sör kiválasztásakor 100 válaszadó preferenciáját rögzítjük, akkor a korrespondenciaelemzés eredményeként 15 fajta (pont) ábrázolása lehetséges egy síkon (az értékesítési elemzést lásd alább). A pontok elhelyezkedésének elemzésével olyan mintákat fog látni a sörválasztásban, amelyek hasznosak lesznek a marketingkampányában.

Van egy bizonyos szleng a levelezés elemzésében.

Súly. A táblázatban szereplő megfigyelések normalizálva vannak: kiszámítják a táblázat relatív gyakoriságát, a táblázat összes elemének összege 1 lesz (minden elem el van osztva a megfigyelések teljes számával, ebben a példában 193-mal). Létrejön egy kétdimenziós eloszlássűrűség analógja. Az így kapott szabványosított táblázat megmutatja, hogy a tömeg hogyan oszlik meg a táblázatcellák vagy a térbeli pontok között. A korrespondenciaelemzésben a relatív gyakorisági mátrixban szereplő sor- és oszlopösszegeket sor-, illetve oszloptömegeknek nevezzük.

Tehetetlenség. A tehetetlenség a Pearson-khi-négyzet értéke egy kétbejegyzéses táblázatban, osztva a megfigyelések teljes számával. Ebben a példában: teljes tehetetlenség = 2 /193 - 16,442.

A sorok és oszlopok tehetetlensége és profiljai. Ha egy táblázat sorai és oszlopai teljesen függetlenek (nincs közöttük kapcsolat - például a dohányzás nem függ a munkakörtől), akkor a táblázat elemei sor- és oszlopösszegekkel, illetve megfeleltetési elemzéssel reprodukálhatók. terminológia sor- és oszlopprofilok használatával (szélfrekvenciák használatával; a Pearson-khi-négyzet teszt és a Fisher-féle egzakt teszt leírását lásd a Táblázatok felépítése és elemzése című fejezetben).

A kétbemenetes táblák khi-négyzet kiszámításának jól ismert képlete szerint egy olyan táblázat várható gyakoriságát, amelyben az oszlopok és sorok függetlenek, úgy számítjuk ki, hogy az oszlopok és sorok megfelelő profilját megszorozzuk, és az eredményt elosztjuk teljes.

Bármilyen eltérés a várt értékektől (a sorok és oszlopok változóinak teljes függetlenségének hipotézise alapján) hozzájárul a khi-négyzet statisztikához.

A korrespondenciaanalízis úgy is felfogható, hogy a khi-négyzet statisztikát komponenseire bontja, hogy meghatározza a legkisebb dimenziós teret a várt értékektől való eltérések megjelenítéséhez (lásd az alábbi táblázatot).

Az alábbiakban táblázatok találhatók a jellemzők és a megfigyelt gyakoriságok függetlenségének hipotézise alapján kiszámított várható gyakoriságokkal, valamint egy táblázat a cellák khi-négyzethez való hozzájárulásáról:


Például a táblázat azt mutatja, hogy a nemdohányzó junior alkalmazottak száma körülbelül 10 fővel kevesebb, mint a függetlenségi hipotézis alapján várható lenne. Ezzel szemben a nemdohányzó vezető beosztású alkalmazottak száma 9 fővel több, mint a függetlenségi hipotézis alapján várható lenne, stb. Szeretnék azonban egy általános képet kapni.

A korrespondenciaelemzés célja, hogy ezeket a várható gyakoriságoktól való eltéréseket nem abszolút értékben, hanem relatív módon összegezze.


Sorok és oszlopok elemzése. A táblázat sorai helyett az oszlopokat is figyelembe vehetjük, és azokat egy alacsonyabb dimenziójú tér pontjaként ábrázolhatjuk, amely a lehető legpontosabban reprodukálja a táblázat oszlopainak relatív gyakoriságai közötti hasonlóságokat (és távolságokat). Egyszerre is megjelenítheti az oszlopokat és sorokat, amelyek egy kétbemenetes táblázatban található összes információt reprezentálják egyetlen grafikonon. És ez a lehetőség a legérdekesebb, mivel lehetővé teszi az eredmények értelmes elemzését.

Eredmények. A korrespondenciaelemzés eredményeit általában grafikonok formájában mutatjuk be, amint az fent látható, valamint táblázatok formájában, például:

Mérések száma

A tehetetlenségi nyomaték százaléka

Összesített százalék

Khi-négyzet

Nézd meg ezt a táblázatot. Mint emlékszel, az elemzés célja egy alacsonyabb dimenziójú tér megtalálása, amely rekonstruálja a táblázatot, és a minőségi kritérium a normalizált khi-négyzet vagy a tehetetlenség. Megjegyezhető, hogy ha a vizsgált példában egydimenziós teret, azaz egy tengelyt használunk, akkor a táblázat tehetetlenségének 87,76%-a magyarázható.


Két dimenzió magyarázza a tehetetlenség 99,51%-át.

Sorok és oszlopok koordinátái. Tekintsük a kapott koordinátákat kétdimenziós térben.

Karakterlánc neve

Változás 1

Változás 2

Senior Managers

Junior menedzserek

Vezetőség

Junior alkalmazottak

Titkárok

Ezt egy kétdimenziós diagramon ábrázolhatja.


A kétdimenziós tér nyilvánvaló előnye, hogy a közeli pontként megjelenített vonalak közel vannak egymáshoz és relatív gyakorisággal.

Figyelembe véve a pontok helyzetét az első tengely mentén, láthatja, hogy a 1. sz. Az alkalmazottak és a titkárok koordinátái viszonylag közel vannak egymáshoz. Ha odafigyelünk a relatív gyakoriságok táblázatának soraira (a gyakoriságok úgy vannak szabványosítva, hogy azok összege soronként 100%), akkor nyilvánvalóvá válik a két csoport adatainak hasonlósága a dohányzás intenzitási kategóriáiban.

Sor százalékos aránya:

Dohányzási kategóriák

Alkalmazottak csoportja

(1) Nemdohányzók

(2) Enyhe dohányosok

(3) Mérsékelten dohányosok

(4) Erős dohányosok

Összesen soronként

(1) Felsőbb vezetők

(2) Junior menedzserek

(3) Vezető alkalmazottak

(4) Ifjúsági alkalmazottak

(5) Titkárok

A korrespondenciaanalízis végső célja a vektorok értelmezése az így létrejövő alsó dimenziós térben. Az eredmények értelmezésének egyik módja, ha oszlopdiagramban ábrázolja őket. Az alábbi táblázat az oszlopok koordinátáit mutatja:

1. dimenzió

2. dimenzió

Nemdohányzók

Könnyű dohányosok

Mérsékelt dohányosok

Erős dohányosok

Azt mondhatjuk, hogy az első tengely a dohányzás intenzitásának gradációját adja meg. Ezért a felsővezetők és a titkárok közötti nagyobb fokú hasonlóság azzal magyarázható, hogy ezekben a csoportokban sok a nemdohányzó.

A koordinátarendszer metrikája. Számos esetben a távolság kifejezést használták egy relatív gyakoriságú mátrix sorai és oszlopai közötti különbségekre, amelyek viszont a korrespondenciaelemzési technikák alkalmazása következtében egy alacsonyabb dimenziójú térben jelennek meg.

A valóságban a megfelelő dimenziójú térben koordinátákként ábrázolt távolságok nem egyszerűen az oszlopok és sorok relatív gyakoriságából számított euklideszi távolságok, hanem néhány súlyozott távolság.

A súlyok kiválasztásának eljárását úgy alakítottuk ki, hogy egy alacsonyabb dimenziójú térben a metrika a khi-négyzet metrika, tekintettel arra, hogy a sorpontok összehasonlításra kerülnek, és a sorprofilok szabványosítását vagy a sor- és oszlopprofilok szabványosítását választják ki, vagy pont -oszlopok összehasonlítása és az oszlopprofilok szabványosítása vagy a sor- és oszlopprofilok szabványosítása.

A megoldás minőségének értékelése. Vannak speciális statisztikák, amelyek segítenek értékelni a kapott megoldás minőségét. Az összes pontot vagy a legtöbb pontot helyesen kell ábrázolni, vagyis a korrespondenciaelemzési eljárás alkalmazása következtében a köztük lévő távolságok nem torzulhatnak. A következő táblázat a rendelkezésre álló sorkoordináták statisztikai számításának eredményeit mutatja csak az előző példa egydimenziós megoldása alapján (vagyis csak egy dimenziót használtunk a relatív gyakorisági mátrix sorprofiljainak rekonstruálására).

Koordináták és hozzájárulás az egyenes tehetetlenségéhez:

A tehetetlenség összefügg.

Mérési tehetetlenség 1

Koszinusz**2 mérések 1

Senior Managers

Junior menedzserek

Vezetőség

Junior alkalmazottak

Titkárok

Koordináták. Az eredménytábla első oszlopa koordinátákat tartalmaz, amelyek értelmezése, mint már említettük, a szabványosítástól függ. A méretet a felhasználó választja ki (ebben a példában egydimenziós teret választottunk), és minden dimenzióhoz megjelennek a koordináták (azaz tengelyenként egy koordinátaoszlop jelenik meg).

Súly. A tömeg tartalmazza az összes elem összegét a relatív gyakorisági mátrix minden sorához (vagyis egy olyan mátrixhoz, ahol minden elem tartalmazza a megfelelő tömeget, ahogy fentebb említettük).

Ha a szabványosítási módszert választjuk Sorprofilok vagy opció Sor- és oszlopprofilok, amely alapértelmezés szerint be van állítva, akkor a sorkoordináták a sorprofil mátrixból számíthatók ki. Más szóval, a koordináták kiszámítása az oszlopban bemutatott feltételes valószínűségi mátrix alapján történik Súly.

Minőség. Oszlop Minőség információt tartalmaz a kiválasztott dimenzió által meghatározott koordinátarendszerben a megfelelő sorpont ábrázolásának minőségéről. A kérdéses táblázatban csak egy dimenzió került kiválasztásra, tehát az oszlopban szereplő számok Minőség az eredmények egydimenziós térben történő bemutatásának minősége. Látható, hogy a felsővezetők minősége nagyon alacsony, a felső és alsóbb szintű alkalmazottaké, titkárnőké viszont magas.

Ismételten jegyezzük meg, hogy számítási szempontból a korrespondenciaelemzés célja egy alacsonyabb dimenziójú tér pontjai közötti távolságok ábrázolása.

Ha a maximális méretet használja (amely a minimális sorok és oszlopok számával mínusz egy), minden távolság pontosan reprodukálható.

Egy pont minőségét úgy definiáljuk, mint egy adott pont és az origó közötti távolság négyzetének arányát a kiválasztott dimenzió terében, az origótól való távolság négyzetéhez viszonyítva, amelyet a maximális méret terében definiálunk. (A khi-négyzet metrikát ebben az esetben választjuk mérőszámnak, amint azt korábban említettük). A faktoranalízisben hasonló az általánosság fogalma.

A STATISTICA által kiszámított minőség független a választott szabványosítási módszertől, és mindig az alapértelmezett szabványosítást használja (vagyis a távolságmérő khí-négyzet, és a minőségi mérőszám a megfelelő sor által meghatározott khi-négyzet törtrészeként értelmezhető. a megfelelő dimenzió tere).

Az alacsony minőség azt jelenti, hogy a rendelkezésre álló dimenziók száma nem reprezentálja elég jól a megfelelő sort (oszlopot).

Relatív tehetetlenség. Egy pont minősége (lásd fent) egy adott pont hozzájárulásának a teljes tehetetlenséghez (Chi-négyzet) való arányát jelenti, ami magyarázatot adhat a választott dimenzióra.

A minőség nem ad választ arra a kérdésre, hogy a megfelelő pont valójában mennyiben és milyen mértékben járul hozzá a tehetetlenséghez (khi-négyzet érték).

A relatív tehetetlenség a teljes tehetetlenség egy adott ponthoz tartozó hányadát jelenti, és nem függ a felhasználó által kiválasztott dimenziótól. Megjegyzendő, hogy bármely adott megoldás elég jól reprezentálhat egy pontot (jó minőség), de ugyanaz a pont nagyon kis mértékben járulhat hozzá a teljes tehetetlenséghez (vagyis egy pontsor, amelynek elemei relatív gyakoriságok, hasonló néhány sor, elem, amely az összes sor átlaga).

Relatív tehetetlenség minden dimenzióhoz. Ez az oszlop tartalmazza a megfelelő sorpont relatív hozzájárulását a tehetetlenségi értékhez, amelyet a megfelelő dimenzió határoz meg. A jelentésben ez az érték minden ponthoz (sorhoz vagy oszlophoz) és minden méréshez megadva.

Koszinusz**2 (minőségi vagy másodfokú korrelációk az egyes dimenziókkal). Ez az oszlop tartalmazza az egyes pontok minőségét, amelyet a megfelelő méret határozza meg. Ha az egyes dimenziókhoz soronként összegezzük a koszinusz**2 oszlop elemeit, akkor az eredmény egy Minőségi értékek oszlopa, amelyről már fent volt szó (mivel a vizsgált példában az 1-es dimenziót választottuk, a 2. koszinusz oszlopot egybeesik a Minőség rovattal). Ez az érték a megfelelő pont és a megfelelő dimenzió közötti „korrelációként” értelmezhető. A koszinusz**2 kifejezés azért keletkezett, mert ez az érték az adott pont és a megfelelő tengely által alkotott szög koszinuszának négyzete.

További pontok. Segíthet az eredmények értelmezésében, ha olyan további sorokat vagy oszlopokat vesz fel, amelyek eredetileg nem szerepeltek az elemzésben. Lehetőség van további sorpontok és további oszloppontok felvételére is. Az eredeti pontokkal együtt további pontokat is megjeleníthet ugyanazon a diagramon. Vegyük például a következő eredményeket:

Alkalmazottak csoportja

1. dimenzió

2. dimenzió

Senior Managers

Junior menedzserek

Vezetőség

Junior alkalmazottak

Titkárok

Nemzeti átlag

Ez a táblázat a különböző beosztású alkalmazottak dohányzási fokának osztályozását tartalmazó gyakorisági táblázathoz kiszámított koordinátákat (két dimenzióra) jeleníti meg.

Az Országos Átlag sor egy további pont koordinátáit tartalmazza, ami a dohányzók különböző nemzetiségeire számított átlagarány (százalékban). Ebben a példában ezek tisztán modelladatok.

Ha kétdimenziós diagramot készít a munkavállalói csoportokról és az országos átlagról, azonnal meg fog győződni arról, hogy ez a kiegészítő pont és a Titkárok csoport nagyon közel van egymáshoz, és a vízszintes koordináta tengelyének ugyanazon az oldalán található Nemdohányzó kategória (pont-oszlop). Vagyis az eredeti gyakorisági táblázatban bemutatott minta az országos átlagnál több dohányost tartalmaz.

Ugyanezt a következtetést levonhatjuk ugyan az eredeti kontingenciatáblázatot tekintve, de a nagyobb táblázatokban az ilyen következtetések természetesen nem annyira nyilvánvalóak.

A további pontok bemutatásának minősége. További érdekes eredmény a további pontok tekintetében az ábrázolás minőségének értelmezése egy adott dimenzióban.

A korrespondenciaelemzés célja ismét az, hogy egy alacsonyabb dimenziós térben ábrázolja a sorok vagy oszlopok koordinátái közötti távolságokat. A probléma megoldásának ismeretében meg kell válaszolni azt a kérdést, hogy megfelelő-e a választott dimenzió terében egy további pont ábrázolása (az eredeti térben lévő pontok távolságának értelmében). Az alábbiakban az eredeti pontokra és a további pontokra vonatkozó statisztikát mutatunk be: Országos átlag, a kétdimenziós térben a feladatra alkalmazva.

Junior menedzserek0,9998100,630578

Emlékezzünk vissza, hogy a sor- vagy oszloppontok minőségét úgy definiáljuk, mint a redukált dimenziós térben a pont és az origó közötti távolság négyzetes távolságának és a ponttól az eredeti térbeli origótól való távolság négyzetes távolságának arányát (a khi-négyzet távolság). mérőszámként van kiválasztva, amint azt már említettük).

Bizonyos értelemben a minőség olyan mennyiség, amely megmagyarázza az eredeti pontfelhő súlypontjától mért távolság négyzetének hányadát.

További pontvonal Az országos átlag minősége 0,76. Ez azt jelenti, hogy egy adott pont meglehetősen jól ábrázolható a kétdimenziós térben. A koszinusz**2 statisztika a megfelelő sorpont ábrázolásának minősége, amelyet egy adott dimenziójú tér választása határoz meg (ha minden dimenzióhoz soronként összegezzük a koszinusz 2 oszlop elemeit, akkor mint ennek eredményeként a korábban kapott minőségi értékhez jutunk).

Az eredmények grafikus elemzése. Ez az elemzés legfontosabb része. Lényegében elfelejtheti a formális minőségi kritériumokat, de kövesse néhány egyszerű szabályt a grafikonok megértéséhez.

Tehát a grafikon sorpontokat és oszloppontokat mutat. Jó gyakorlat mindkét pont bemutatása (elvégre a táblázat sorai és oszlopai közötti kapcsolatokat elemezzük!).

Általában a vízszintes tengely a maximális tehetetlenségnek felel meg. A teljes tehetetlenség százalékos aránya, amelyet egy adott sajátérték magyaráz, a nyíl mellett látható. Gyakran az eredménytáblázatból vett megfelelő sajátértékek is feltüntetésre kerülnek. A két tengely metszéspontja a megfigyelt pontok súlypontja, amely megfelel az átlagos profiloknak. Ha a pontok azonos típusúak, azaz vagy sorok vagy oszlopok, akkor minél kisebb a távolság közöttük, annál szorosabb a kapcsolat. Annak érdekében, hogy kapcsolatot létesítsen a különböző típusú pontok között (sorok és oszlopok között), érdemes megfontolni szögek közöttük a csúcsponttal a súlypontban.

A függőség mértékének vizuális értékelésének általános szabálya a következő.

  • Tekintsünk 2 tetszőleges, különböző típusú pontot (a táblázat sorait és oszlopait).
  • Kössük össze őket tömegközéppontú egyenes szakaszokkal (0,0 koordinátájú pont).
  • Ha a kapott szög hegyes, akkor a sor és az oszlop pozitívan korrelál.
  • Ha a kapott szög tompaszög, akkor a változók közötti korreláció negatív.
  • Ha a szög megfelelő, akkor nincs összefüggés.

Tekintsük konkrét adatok elemzését a STATISTICA rendszerben.

1. példa (dohányzók elemzése)

1. lépés. Futtassa a modult Levelezési elemzés.

A modul indítópultján 2 féle elemzés található: a levelezéselemzés és a többváltozós korrespondenciaelemzés.

Válassza ki Levelezési elemzés. A többváltozós megfeleltetés elemzését a következő példa tárgyalja.

2. lépés. Nyissa meg a smoking.sta adatfájlt a Példák mappában.


A fájl eleve egy kontingenciatábla, így nincs szükség táblázatozásra. Válassza ki az elemzés típusát – Gyakoriságok csoportosítási változó nélkül.

3. lépés. Kattintson a gombra Változók frekvenciákkalés válasszon változókat az elemzéshez.

Ebben a példában válassza ki az összes változót.


4. lépés. Kattintson rendbenés indítsa el a számítási eljárást. A képernyőn megjelenik egy ablak az eredményekkel.


5. lépés. Nézzük meg az eredményeket az ablakban található opciók segítségével.

Általában először a grafikonokat nézzük meg, ehhez van egy gombcsoport Koordináta gráf.

A grafikonok sorokhoz és oszlopokhoz, valamint sorokhoz és oszlopokhoz egyidejűleg állnak rendelkezésre.

A maximális helyméret az opcióban van megadva Dimenzió.

A legérdekesebb dimenzió a 2. Vegye figyelembe, hogy a grafikonon, különösen, ha sok adat van, a címkék átfedhetik egymást, ezért az opció Rövidítse le a címkéket.

Kattintson a harmadik 2M gombra a párbeszédpanelen. Egy grafikon jelenik meg a képernyőn:


Vegye figyelembe, hogy a grafikon mindkét tényezőt mutatja: az alkalmazotti csoportot - sorok és a dohányzás intenzitása - az oszlopokat.

Kösse össze a SENIOR EMPLOYEES kategóriát és a NEM kategóriát a súlyponttal egy egyenes segítségével.

Az így kapott szög hegyes lesz, ami a korrespondenciaelemzés nyelvén azt jelzi, hogy e jellemzők között pozitív korreláció áll fenn (erről megbizonyosodhat az eredeti táblázatból).

A sorok és oszlopok koordinátái numerikus formában is megtekinthetők a gomb segítségével Sorok és oszlopok koordinátái.


A gomb segítségével Sajátértékek, láthatja a khi-négyzet statisztika sajátértékekre való kiterjesztését.

választási lehetőség Menetrend Csak a kiválasztott mérések lehetővé teszik a pontok koordinátáinak megtekintését a kiválasztott tengelyek mentén.

Opció csoport Táblázatok megtekintése az ablak jobb oldalán megtekintheti az eredeti és a várható kontingencia táblázatot, a gyakoriságok közötti különbségeket és a táblázatos jellemzők függetlenségének hipotézise alapján számított egyéb paramétereket (lásd a Táblázatok felépítése és elemzése, khi-négyzet teszt fejezetet).

A nagy táblázatokat a legjobb fokozatosan felfedezni, szükség szerint további változókat bevezetve. Ehhez a következő lehetőségek állnak rendelkezésre: Sorpontok hozzáadása, Oszloppontok hozzáadása.

2. példa (értékesítési elemzés)

A Táblázatok elemzése és felépítése című fejezetben egy értékesítési elemzéssel kapcsolatos példát vettek figyelembe. Alkalmazzuk az adatokra korrespondenciaelemzést.

Korábban megjegyezték, hogy az a kérdés, hogy a vevő milyen vásárlásokat hajtott végre, feltéve, hogy 3 árut vásárolt, összetett.

Valójában összesen 21 termékünk van. Az összes kontingenciatáblázat megtekintéséhez 21×20×19 = 7980 műveletet kell végrehajtania. Az akciók száma katasztrofálisan növekszik a termékek és az attribútumok számának növekedésével. Alkalmazzuk a korrespondenciaelemzést. Nyissunk meg egy adatfájlt a megvásárolt terméket jelölő indikátorváltozókkal.


A modul kezdőpaneljén válassza a lehetőséget Többváltozós megfelelés-elemzés.


Állítsuk be a megfigyelések kiválasztásának feltételét.


Ez a feltétel lehetővé teszi olyan vásárlók kiválasztását, akik pontosan 3 vásárlást hajtottak végre.

Mivel nem táblázatos adatokkal van dolgunk, az elemzés típusát választjuk ki Kezdeti adatok(táblázás szükséges).

A további grafikus megjelenítés megkönnyítése érdekében néhány változót választunk ki. Válasszunk ki további változókat is (lásd az alábbi ablakot).


Kezdjük a számítási eljárást.


A megjelenő ablakban Többváltozós korrespondenciaanalízis eredményei Nézzük az eredményeket.

A 2M gombbal a változók kétdimenziós grafikonja jelenik meg.

Ezen a grafikonon további változók piros pontokkal vannak jelölve, ami kényelmes a vizuális elemzéshez.

Vegye figyelembe, hogy minden változó értéke 1, ha a terméket megvásárolta, és 0, ha a terméket nem vásárolta meg.

Nézzük a grafikont. Válasszunk például közeli tulajdonságpárokat.

Ennek eredményeként a következőket kapjuk:


Hasonló vizsgálatok végezhetők más adatokkal is, ha nincsenek a priori hipotézisek az adatok függőségére vonatkozóan.

Adatbányászat Frolov Timofey. A BI-1102 adatbányászat nagy mennyiségű (általában gazdasági jellegű) információ analitikus vizsgálatának folyamata bizonyos minták és a változók közötti szisztematikus kapcsolatok azonosítása érdekében, amelyeket aztán új adathalmazokra lehet alkalmazni. Ez a folyamat három fő szakaszból áll: kutatás, modell vagy keretrendszer felépítése és tesztelése. Ideális esetben elegendő adat birtokában egy iteratív eljárás szervezhető robusztus modell felépítéséhez. Ugyanakkor valós helyzetben szinte lehetetlen tesztelni a gazdasági modellt az elemzési szakaszban, ezért a kezdeti eredmények heurisztika jellegűek, amelyek a döntéshozatali folyamatban használhatók (például „Elérhető adatok azt jelzik, hogy a nőknél az altatók szedésének gyakorisága az életkorral gyorsabban növekszik, mint a férfiaknál." Az adatbányászati ​​módszerek egyre népszerűbbek a gazdasági információk elemzésének eszközeként, különösen azokban az esetekben, amikor feltételezik, hogy a rendelkezésre álló adatokból tudás nyerhető ki a döntéshozatalhoz bizonytalanság mellett. Bár a közelmúltban megnőtt az érdeklődés új üzletspecifikus adatelemzési módszerek (pl. osztályozási fák) kifejlesztése iránt, általában véve az adatbányászati ​​rendszerek továbbra is az Exploratory Data Analysis (EDA) és a modellépítés klasszikus elvein alapulnak, és ugyanazokat a megközelítéseket használják, mód. Van azonban egy fontos különbség az adatbányászati ​​eljárás és a klasszikus feltáró adatelemzés (EDA) között: az adatbányászati ​​rendszerek inkább a kapott eredmények gyakorlati alkalmazására összpontosítanak, mintsem a jelenség természetének tisztázására. Más szóval, az adatbányászatban nem nagyon érdekelnek bennünket a feladatváltozók közötti függőségek. Ennek az eljárásnak nem a fő célja az itt érintett függvények jellegének vagy a változók közötti interaktív többváltozós függőségek sajátos formájának meghatározása. A fő figyelmet arra fordítják, hogy olyan megoldásokat találjanak, amelyek alapján megbízható előrejelzések készíthetők. Így az adatbányászat területe az adatelemzés és tudáskinyerés olyan megközelítését alkalmazta, amelyet néha „fekete doboznak” neveznek. Ebben az esetben nemcsak a feltáró adatelemzés klasszikus módszereit alkalmazzák, hanem olyan módszereket is, mint például a neurális hálózatok, amelyek lehetővé teszik megbízható előrejelzések felépítését anélkül, hogy meghatároznák az ilyen előrejelzés alapjául szolgáló függőségek konkrét típusát. Az adatbányászatot nagyon gyakran „statisztika, mesterséges intelligencia (AI) módszerek és adatbázis-elemzés keverékeként” értelmezik (Pregibon, 1997, 8. o.), és egészen a közelmúltig nem ismerték el teljes értékű területként. a statisztikai szakemberek érdeklődését, és néha „a statisztika holtágainak” is nevezik (Pregibon, 1997, 8. o.). Ezt a problémát azonban nagy gyakorlati jelentősége miatt ma már intenzíven fejlesztik és nagy érdeklődést váltanak ki (statisztikai vonatkozásaiban is), és fontos elméleti eredmények születtek benne (lásd pl. az évente megrendezésre kerülő Nemzetközi Konferencia a Tudáskeresésről és Adatbányászatról (International Conferences on Knowledge Discovery and Data Mining), melynek egyik szervezője 1997-ben az Amerikai Statisztikai Szövetség volt. Az adattárház nagy, többdimenziós adatkészletek tárolására szolgáló hely, amely lehetővé teszi az információk könnyű lekérését és elemzési eljárásokban való felhasználását. A hatékony adattárház-architektúrát úgy kell megszervezni, hogy az a vállalati információs rendszer szerves része legyen (vagy legalábbis kapcsolatban legyen minden elérhető adattal). Ebben az esetben speciális technológiákat kell használni a vállalati adatbázisokkal való munkához (például Oracle, Sybase, MS SQL Server). A nagy teljesítményű adattárház-technológiát, amely lehetővé teszi a felhasználók számára egy szinte korlátlan összetettségű vállalati adatbázis megszervezését és hatékony használatát, a StatSoft vállalati rendszerei fejlesztették ki, és SENS-nek és SEWSS-nek hívják. Az OLAP (vagy FASMI – elosztott többdimenziós információk gyors elemzése) kifejezés olyan módszerekre utal, amelyek lehetővé teszik a többdimenziós adatbázisok felhasználói számára, hogy valós időben leíró és összehasonlító összefoglalókat ("nézeteket") generáljanak az adatokról, és választ kapjanak különféle egyéb analitikai kérdésekre. Felhívjuk figyelmét, hogy ez a módszer a neve ellenére nem foglal magában interaktív (valós idejű) adatfeldolgozást; többdimenziós adatbázisok (amelyek különösen dinamikusan frissített információkat tartalmazhatnak) elemzésének folyamatára utal, különféle típusú adatokra hatékony "többdimenziós" lekérdezések felépítésével. Az OLAP eszközök beépíthetők a vállalati adatbázisrendszerekbe, és lehetővé teszik az elemzők és vezetők számára, hogy nyomon kövessék vállalkozásuk vagy a piac egészének előrehaladását és teljesítményét (például a gyártási folyamat különböző aspektusait vagy a különböző régiókban végrehajtott tranzakciók számát és kategóriáit). ). Az OLAP módszerekkel végzett elemzések lehetnek olyan egyszerűek, mint a gyakorisági táblázatok, leíró statisztikák, egyszerű táblázatok, vagy olyan összetettek, mint a szezonális kiigazítások, a kiugró értékek eltávolítása és más adattisztítási technikák. Míg az adatbányászati ​​technikák bármilyen nyers vagy akár strukturálatlan információra alkalmazhatók, az OLAP adatok és jelentések elemzésére is használhatók a mélyebb feltárás érdekében, jellemzően nagyobb dimenziókban. Ebben az értelemben az adatbányászati ​​módszerek alternatív analitikai megközelítésnek tekinthetők (az OLAP-tól eltérő célokat szolgálnak ki), vagy az OLAP rendszerek analitikai kiterjesztéseként. Az EDA és a hipotézistesztelés A hagyományos hipotézisteszteléstől eltérően, amely a változók közötti kapcsolatokra vonatkozó előzetes feltételezések tesztelésére szolgál (például „Pozitív korreláció van egy személy életkora és kockázatkerülése között”), a feltáró adatelemzés (EDA) a változók közötti kapcsolatok keresésére szolgál olyan helyzetekben, amikor nincs (vagy nem elegendő) a priori elképzelés ezen kapcsolatok természetéről. A feltáró elemzés jellemzően nagyszámú változót vesz figyelembe és hasonlít össze, és sokféle módszert alkalmaz a minták megtalálására. A feltáró adatelemzés számítási módszerei A feltáró adatelemzés számítási módszerei közé tartoznak az alapvető statisztikai módszerek, valamint az összetettebb, speciálisan megtervezett többváltozós elemzési módszerek, amelyek a többváltozós adatok mintáinak megtalálására szolgálnak. A feltáró statisztikai elemzés alapvető módszerei. A feltáró statisztikai elemzés főbb módszerei közé tartozik a változók eloszlásának elemzése (például aszimmetrikus vagy nem Gauss-eloszlású változók azonosítása, beleértve a bimodálisakat is), a korrelációs mátrixok megtekintése bizonyos küszöböt meghaladó együtthatók keresésére. nagyságrendi értékek (lásd az előző példát) , vagy több bemenetes frekvenciatáblázatok elemzése (például a vezérlőváltozók szintjei kombinációinak „rétegről rétegre” szekvenciális megtekintése). A többváltozós feltáró elemzés módszerei. A többváltozós feltáró elemzési technikákat kifejezetten arra tervezték, hogy mintákat találjanak többváltozós adatokban (vagy egyváltozós adatok sorozataiban). Ezek közé tartozik: klaszteranalízis, faktoranalízis, liskrimináns függvényelemzés, többdimenziós skálázás, loglineáris analízis, kanonikus korrelációk, lépcsőzetes lineáris és nemlineáris (például logit) regresszió, korrespondenciaelemzés, idősorelemzés. Neurális hálózatok. Az analitikai módszerek ezen osztálya a gondolkodó lények tanulási folyamatainak (ahogy a kutatók szerint) és az idegsejtek funkcióinak reprodukálásán alapul. A neurális hálózatok képesek megjósolni a változók jövőbeli értékeit ugyanazon vagy más változók meglévő értékei alapján, miután korábban elvégezték az úgynevezett tanulási folyamatot a rendelkezésre álló adatok alapján. Az adatok előzetes vizsgálata csak az adatelemzési folyamat első lépéseként szolgálhat, és amíg az eredmények (keresztvalidációs módszerekkel) meg nem erősítik az adatbázis más részein vagy független adathalmazon, addig a leginkább hipotézisként. Ha a feltáró elemzés eredményei alátámasztják a modellt, akkor annak érvényessége tesztelhető új adatokra történő alkalmazásával és annak meghatározásával, hogy mennyire illeszkedik az adatokhoz ("előrejelzési képesség" teszt). Az adatok különböző részhalmazainak gyors kiválasztásához (például tisztításhoz, ellenőrzéshez stb.) és az eredmények megbízhatóságának értékeléséhez célszerű megfigyelési kiválasztási feltételeket használni.



© imht.ru, 2024
Üzleti folyamatok. Beruházások. Motiváció. Tervezés. Végrehajtás