Exploračná analýza
Metódy exploračnej analýzy slúžia na objavenie štruktúr, vytvorenie hypotéz, rozoznanie osobitostí a znázornenie fenoménov. Východiskovým bodom každej analýzy dát sú samotné dáta. Dáta nemusia spĺňať určité podmienky, ako sa žiada v inferenčnej analýze (napr. že dáta museli byť získané náhodným výberom). Ide hlavne o to, rozličnými spôsobmi znázorniť tieto dáta, rozoznať pravidelnosti a nepravidelnosti, štruktúry, vzory a osobitosti. V exploračnom procese hľadáme v dátach zaujímavé konfigurácie a vzťahy.
1. Popisná štatistika
1.3. Charakteristiky variability
Dáta s rovnakou strednou hodnotou môžu mať rôznu rozptýlenosť. Veľkosť premenlivosti dát určujeme vhodne vybranou charakteristikou variability. Nazývajú sa taktiež miery rozptýlenosti.
Variačné rozpätie predstavuje rozdiel medzi maximálnou a minimálnou hodnotou premennej,
Nevýhodou variačného rozpätia je veľká citlivosť voči extrémnym hodnotám.
Rozptyl je dôležitou mierou variability štatistického súboru a používa sa v inferenčnej analýze pri výpočte rôznych testovacích štatistík. Rozptyl je priemerná kvadratická odchýlka merania od aritmetického priemeru,
Čím je rozptyl väčší, tým sa údaje viac odchyľujú od priemeru. Pri väčších rozsahoch nie je veľký rozdiel medzi delením číslom n alebo n - 1. Delenie číslom n sa používa, ak počítame rozptyl pre všetky prvky populácie, pri výpočte rozptylu pre výber delíme číslom n - 1.
Smerodajná (štandardná) odchýlka predstavuje druhú odmocninu rozptylu. V prípade, že sú všetky dáta rovnaké, smerodajná odchýlka je rovná nule. Počíta sa podľa vzorca
Smerodajná (štandardná) chyba odhadu priemeru predstavuje podiel smerodajnej odchýlky a odmocniny z rozsahu súboru n. Čím je vzorka väčšia, tým je chyba menšia. Počíta sa podľa vzorca
Variačný koeficient sa používa pre porovnávanie variability viacerých štatistických znakov, predstavuje relatívnu mieru variability. Vypočíta sa ako podiel smerodajnej odchýlky a priemeru. Nezávisí na jednotkách, v ktorých sú hodnoty premennej vyjadrené, na rozdiel od rozptylu a smerodajnej odchýlky. Variačný koeficient sa definuje vzťahom
keď sú všetky hodnoty premennej X kladné.
Ak je hodnota variačného koeficientu väčšia ako 50%, aritmetický priemer stráca význam, pretože štatistický súbor je heterogénny, nesúrodý a aritmetický priemer ho nemôže reprezentovať. V takom prípade namiesto aritmetického priemeru ako strednú hodnotu používame medián.
Priemerná absolútna odchýlka sa najčastejšie používa ako miera rozptýlenosti okolo aritmetického priemeru alebo mediánu. Dá sa interpretovať dvoma spôsobmi. Po prvé, je to priemerný rozdiel medzi hodnotami a priemerom pri ignorovaní znamienok. Po druhé, je to priemerný rozdiel medzi každými dvoma hodnotami pri ignorovaní znamienok. Z matematického hľadiska má však prioritu medián. Počíta sa podľa vzorca
Koeficient disperzie predstavuje relatívnu mieru variability, ktorá je iba málo ovplyvnená extrémnymi hodnotami. Vypočíta sa ako podiel priemernej odchýlky a mediánu,
Mediánová absolútna odchýlka je charakteristika variability, ktorá nie je ovplyvnená extrémnymi hodnotami. Vypočíta sa ako medián z absolútnych hodnôt odchýlok jednotlivých meraní od mediánu. Označuje sa MAD (Median Absolute Deviation),
Kvartilové rozpätie predstavuje rozdiel medzi tretím a prvým kvartilom (75. a 25. percentilom)
čo reprezentuje oblasť stredných 50% hodnôt premennej. Táto miera variability nie je ovplyvnená extrémnymi hodnotami premennej.
Použitie jednotlivých charakteristík variability:
- Smerodajná odchýlka a rozptyl merajú rozptýlenosť okolo priemeru a používajú sa, keď priemer je vhodný ako miera strednej hodnoty.
- Smerodajná odchýlka a rozptyl sú silne ovplyvnené extrémnymi hodnotami, preto v tomto prípade uprednostňujeme kvartilové rozpätie, mediánovú absolútnu odchýlku, respektíve priemernú absolútnu odchýlku od mediánu.
- V prípade silne zošikmeného rozdelenia, smerodajná odchýlka a rozptyl neposkytujú dobrú informáciu o rozptýlenosti dát.
- V prípade, že chceme posúdiť relatívnu veľkosť rozptýlenosti dát od priemeru použijeme variačný koeficient.
- V prípade, že chceme posúdiť relatívnu veľkosť rozptýlenosti dát od mediánu použijeme koeficient disperzie.