5. Vzťahy medzi premennými

5.2. Korelačná analýza

Korelačná analýza skúma tesnosť štatistickej závislosti medzi kvantitatívnymi premennými. Korelačná analýza na rozdiel od regresie nevyjadruje príčinno-následný vzťah. Premenná Y nezávisí na premennej X, ale dve náhodné premenné X a Y sa spoločne menia. Regresná analýza predpokladá, že premenná Y je náhodná a premenná X fixná. Korelačný koeficient je mierou lineárnej závislosti dvoch premenných.

Korelačný koeficient:       

   

Výberový/Pearsonov korelačný koeficient:

Výberový korelačný koeficient r definujeme pomocou analogického vzorca, v ktorom sa neznáme rozptyly a neznáma kovariancia nahradí ich nestrannými odhadmi. Čitateľ sa nazýva kovariancia a vyjadruje ako sa súčasne menia hodnoty dvoch premenných. Kladná hodnota znamená, že sa menia spoločne jedným smerom, záporná hodnota znamená, že sa menia opačným smerom a nula, že sa menia nezávisle. Vydelením kovariancie smerodajnými odchýlkami sa vypočíta korelačný koeficient, ktorého hodnota sa nachádza v intervale od -1 do 1. Pričom -1 znamená nepriamu úmernosť, 1 znamená priamu úmernosť a 0 nezávislosť X a Y.

Interpretácia korelačného koeficientu

Viacnásobný koeficient korelácie je mierou lineárnej závislosti premennej Y a náhodného vektora. Jeho štvorec sa nazýva koeficient determinácie a vyjadruje podiel variability premennej Y vysvetlenej regresným modelom k celkovej variabilite premennej Y. Pre dvojrozmerný náhodný vektor  sa viacnásobný koeficient korelácie  vypočíta podľa vzorca:

.

Ktorá z nezávislých premenných má najväčší vplyv na premennú Y sa zisťuje z parciálnych korelačných koeficientov. Nasledujúci vzorec parciálnej korelácie určuje mieru závislosti premenných Y a Z s vylúčením vplyvu premennej X (Y je závislá premenná, Z a X sú nezávislé premenné):

Testy významnosti korelačných koeficientov testujú, či je koeficient korelácie štatisticky významne rôzny od nuly.

Na použitie testov je nutné splniť nasledujúci predpoklad:

  • Normálne rozdelenie premenných.

Procedúra testovania - test významnosti výberového korelačného koeficientu

Testy významnosti viacnásobného korelačného koeficientu a parciálneho korelačného koeficientu sú ekvivalentné s testovaním významnosti regresných koeficientov.

Korelačný koeficient môže byť ovplyvnený extrémnymi hodnotami, a to v oboch smeroch. Jediný extrémny prípad vo veľkom súbore môže významne znížiť silnú závislosť, ale aj vyrobiť silnú závislosť tam, kde žiadna nie je. Dôležité závery sa nesmú robiť iba na základe hodnoty koeficientu. Vždy je nutné preskúmať graf zobrazujúci objekty definované súradnicami X a Y v rovine. Z grafu možno zistiť aj nelineárny, ale silný vzťah medzi premennými. V takom prípade treba linearizovať vzťah tak, že sa jedna premenná transformuje a následne sa použije na výpočet korelácie. 

Na prítomnosť extrémnych hodnôt netrpia neparametrické korelačné koeficienty. Ako mieru vzťahu v prípade výskytu extrémnych hodnôt medzi dvoma intenzívnymi premennými (ordinálne, metrické) môžeme použiť: Spearmanov korelačný koeficient, Kendallov koeficient tau a Koeficient gama.