1. Popisná štatistika

1.1. Početnosti

Vstupná dátová tabuľka je pri väčšom rozsahu súboru neprehľadná, preto ju upravujeme na tabuľku rozdelenia početností.

Tabuľku početností môžeme získať jednoduchým alebo intervalovým triedením. Ak sa hodnoty premennej opakujú, na zistenie početností používame jednoduché triedenie. V prípade, že hodnoty sú rôznorodé používame intervalové triedenie, t.j. zisťuje sa, koľko hodnôt sa nachádza vo vytvorených intervaloch.

V prípade kvalitatívnych/nominálnych premenných (napr. pohlavie) a vo väčšine prípadov aj ordinálnych premenných (napr. prospech) používame jednoduché triedenie. V prípade metrických premenných vo väčšine prípadov používame intervalové triedenie, pokiaľ hodnoty premennej sú dostatočne rôznorodé.  

Jednoduché triedenie

Premenná môže nadobúdať  hodnôt . Zo vstupnej dátovej tabuľky zistíme, koľkokrát sa jednotlivé hodnoty premennej opakujú v súbore - absolútne početnosti  a vypočítame relatívne početnosti, percentá a kumulatívne početnosti. Ak je možné hodnoty usporiadať podľa veľkosti (intenzívne premenné), tak ich usporiadame od minimálnej hodnoty po maximálnu.

Hodnota premennej

Absolútna početnosť

Relatívna početnosť

Relatívna početnosť(%)

Kumulatívna početnosť

x1

n1

n1/n

(n1/n)100

x2

n2

n2/n

(n2/n)100

...

...

...

...

...

xr-1

nr-1

nr-1/n

(nr-1/n)100

xr

nr

nr/n

(nr/n)100

Σ

n

1

100

 

Ak sme správne zostavili tabuľku početností, potom súčet absolútnych početností sa rovná celkovému počtu prípadov n, súčet relatívnych početností jednej celej, súčet percent 100% a posledná kumulatívna početnosť sa rovná celkovému počtu n.

Kumulatívne početnosti nemá význam počítať pre nominálne premenné. Ale v prípade metrických a ordinálnych premenných nám pomáhajú sprehľadniť daný súbor, tak napr. v prípade ordinálnej premennej prospech, vieme koľkí študenti mali trojku a lepšiu známku a pod. Kumulatívne početnosti sa dajú počítať aj z relatívnych početností, rovnako ako z absolútnych. 

Intervalové triedenie

V prípade, že dátový súbor je rôznorodý, zoskupujeme hodnoty do triednych intervalov.  Usporiadame hodnoty podľa veľkosti od minimálnej po maximálnu hodnotu.

Počet intervalov r si určíme alebo odhadneme napr. podľa Sturgesovho pravidla

Následne si vypočítame šírku intervalu h, ktorú zaokrúhlime nahor

Intervaly volíme tak, že z jednej strany sú otvorené a z druhej uzavreté. Ak by sme volili uzavreté intervaly z obidvoch strán, mohol by nastať prípad, že by jedna hodnota padla do obidvoch intervalov. Keď zvolíme interval zľava otvorený nezačíname v minimálnej hodnote, ale v hodnote o niečo menšej. Celému triednemu intervalu priradíme hodnotu znaku rovnú stredu intervalu.

Naznačíme tvorbu triednych intervalov: 

Triedny interval

Stred intervalu

Absolútna početnosť

Relatívna početnosť

Relatívna početnosť(%)

Kumulatívna početnosť

x1

n1

n1/n

(n1/n)100

x2

n2

n2/n

(n2/n)100

...

...

...

...

...

...

xr-1

nr-1

nr-1/n

(nr-1/n)100

xr

nr

nr/n

(nr/n)100

Σ

 

n

1

100

 

Absolútne početnosti predstavujú počet hodnôt, ktoré patria do príslušného triedneho intervalu.

Kontingenčná tabuľka

Kontingenčné tabuľky sa používajú na zachytenie početností dvoch kvalitatívnych/nominálnych premenných. Premenná Y nadobúda S rôznych hodnôt a premenná X zas R rôznych hodnôt (S > 1, R > 1).

V kontingenčnej tabuľke ars, r = 1, 2, ..., R, s = 1, 2, ..., S (Tabuľka 8) predstavuje počet tých štatistických jednotiek, na ktorých sa súčasne namerali (zistili) hodnoty xr ys – pozorované absolútne početnosti. Početnosti hodnôt premennej X sa označujú ako riadkové početnosti rr a početnosti hodnôt premennej Y sa označujú ako stĺpcové početnosti ss 

kde n je celkový počet štatistických jednotiek v danom súbore.

Pre dve dichotomické premenné by kontingenčná tabuľka mala 4 polia (2x2) na vyjadrenie všetkých interakčných početností.

Kontingenčná tabuľka môže obsahovať okrem absolútnych pozorovaných početností aj relatívne početnosti - percentá z celkového počtu (súčet percent vo všetkých poliach RxS dáva celok – 100%), z počtu v riadkoch (súčet percent v riadkoch pre každý stĺpec dáva celok - 100%) a z počtu v stĺpcoch (súčet percent v stĺpcoch pre každý riadok dáva celok - 100%).