Exploračná analýza
1. Popisná štatistika
1.1. Početnosti
Vstupná dátová tabuľka je pri väčšom rozsahu súboru neprehľadná, preto ju upravujeme na tabuľku rozdelenia početností.
Tabuľku početností môžeme získať jednoduchým alebo intervalovým triedením. Ak sa hodnoty premennej opakujú, na zistenie početností používame jednoduché triedenie. V prípade, že hodnoty sú rôznorodé používame intervalové triedenie, t.j. zisťuje sa, koľko hodnôt sa nachádza vo vytvorených intervaloch.
V prípade kvalitatívnych/nominálnych premenných (napr. pohlavie) a vo väčšine prípadov aj ordinálnych premenných (napr. prospech) používame jednoduché triedenie. V prípade metrických premenných vo väčšine prípadov používame intervalové triedenie, pokiaľ hodnoty premennej sú dostatočne rôznorodé.
Jednoduché triedenie
Premenná môže nadobúdať hodnôt . Zo vstupnej dátovej tabuľky zistíme, koľkokrát sa jednotlivé hodnoty premennej opakujú v súbore - absolútne početnosti a vypočítame relatívne početnosti, percentá a kumulatívne početnosti. Ak je možné hodnoty usporiadať podľa veľkosti (intenzívne premenné), tak ich usporiadame od minimálnej hodnoty po maximálnu.
Hodnota premennej |
Absolútna početnosť |
Relatívna početnosť |
Relatívna početnosť(%) |
Kumulatívna početnosť |
x1 |
n1 |
n1/n |
(n1/n)100 |
|
x2 |
n2 |
n2/n |
(n2/n)100 |
|
... |
... |
... |
... |
... |
xr-1 |
nr-1 |
nr-1/n |
(nr-1/n)100 |
|
xr |
nr |
nr/n |
(nr/n)100 |
|
Σ |
n |
1 |
100 |
|
Ak sme správne zostavili tabuľku početností, potom súčet absolútnych početností sa rovná celkovému počtu prípadov n, súčet relatívnych početností jednej celej, súčet percent 100% a posledná kumulatívna početnosť sa rovná celkovému počtu n.
Kumulatívne početnosti nemá význam počítať pre nominálne premenné. Ale v prípade metrických a ordinálnych premenných nám pomáhajú sprehľadniť daný súbor, tak napr. v prípade ordinálnej premennej prospech, vieme koľkí študenti mali trojku a lepšiu známku a pod. Kumulatívne početnosti sa dajú počítať aj z relatívnych početností, rovnako ako z absolútnych.
Intervalové triedenie
V prípade, že dátový súbor je rôznorodý, zoskupujeme hodnoty do triednych intervalov. Usporiadame hodnoty podľa veľkosti od minimálnej po maximálnu hodnotu.
Počet intervalov r si určíme alebo odhadneme napr. podľa Sturgesovho pravidla
Následne si vypočítame šírku intervalu h, ktorú zaokrúhlime nahor
Intervaly volíme tak, že z jednej strany sú otvorené a z druhej uzavreté. Ak by sme volili uzavreté intervaly z obidvoch strán, mohol by nastať prípad, že by jedna hodnota padla do obidvoch intervalov. Keď zvolíme interval zľava otvorený nezačíname v minimálnej hodnote, ale v hodnote o niečo menšej. Celému triednemu intervalu priradíme hodnotu znaku rovnú stredu intervalu.
Naznačíme tvorbu triednych intervalov:
Triedny interval |
Stred intervalu |
Absolútna početnosť |
Relatívna početnosť |
Relatívna početnosť(%) |
Kumulatívna početnosť |
x1 |
n1 |
n1/n |
(n1/n)100 |
||
x2 |
n2 |
n2/n |
(n2/n)100 |
||
... |
... |
... |
... |
... |
... |
xr-1 |
nr-1 |
nr-1/n |
(nr-1/n)100 |
||
xr |
nr |
nr/n |
(nr/n)100 |
||
Σ |
|
n |
1 |
100 |
|
Absolútne početnosti predstavujú počet hodnôt, ktoré patria do príslušného triedneho intervalu.
Kontingenčná tabuľka
Kontingenčné tabuľky sa používajú na zachytenie početností dvoch kvalitatívnych/nominálnych premenných. Premenná Y nadobúda S rôznych hodnôt a premenná X zas R rôznych hodnôt (S > 1, R > 1).
V kontingenčnej tabuľke ars, r = 1, 2, ..., R, s = 1, 2, ..., S (Tabuľka 8) predstavuje počet tých štatistických jednotiek, na ktorých sa súčasne namerali (zistili) hodnoty xr a ys – pozorované absolútne početnosti. Početnosti hodnôt premennej X sa označujú ako riadkové početnosti rr a početnosti hodnôt premennej Y sa označujú ako stĺpcové početnosti ss
kde n je celkový počet štatistických jednotiek v danom súbore.
Pre dve dichotomické premenné by kontingenčná tabuľka mala 4 polia (2x2) na vyjadrenie všetkých interakčných početností.
Kontingenčná tabuľka môže obsahovať okrem absolútnych pozorovaných početností aj relatívne početnosti - percentá z celkového počtu (súčet percent vo všetkých poliach RxS dáva celok – 100%), z počtu v riadkoch (súčet percent v riadkoch pre každý stĺpec dáva celok - 100%) a z počtu v stĺpcoch (súčet percent v stĺpcoch pre každý riadok dáva celok - 100%).