Exploračná analýza

4. Transformácia dát

Základné transformácie

Transformovať údaje môžeme z viacerých dôvodov, napríklad transformujeme údaje pri prechode na nové jednotky merania, alebo odpočítame od údajov mieru polohy, čím získame centrované dáta.

Štandardizácia

Štandardizovaná hodnota = (pozorovaná hodnota – priemer)/smerodajná odchýlka

Namiesto priemeru môžeme použiť medián a smerodajnej odchýlky kvartilové rozpätie. Dôsledkom štandardizácie je, že priemer (medián) štandardizovaných dát je 0 a ich smerodajná odchýlka (kvartilové rozpätie) je 1.

Dáta so symetrickým rozdelením štandardizované priemerom a smerodajnou odchýlkou sú symetricky rozdelené okolo nuly a ich hodnoty sú približne v rozmedzí -3 až 3. Hodnoty mimo tohto rozmedzia sa pokladajú za podozrivé – možné extrémne hodnoty.

Štandardizácia pomocou priemeru a smerodajnej odchýlky sa dá vyjadriť pomocou lineárnej funkcie:

Lineárna transformácia

Lineárna transformácia nemení typ tvaru rozdelenia dát:

Nelineárne transformácie

Cieľom nelineárnej transformácie dát je linearizácia nelineárnych vzťahov, dosiahnutie konštantného rozptylu a zmena tvaru rozdelenia.

Problémy s tvarom rozdelenia, transformácie dát k normalite