Získavanie dát
Zdroje dát
Databázy
Najznámejším zdrojom dát sú produkčné databázy v lepšom prípade dátové sklady, kde sú uložené dáta z produkčných databáz pre potreby rozhodovania. Dátové sklady môžu integrovať dáta aj z iných zdrojov, napr. z verejných (RegDat, databázy Eurostatu). Najčastejšie ide o dáta demografické, socioekonomické a pod. Dátový sklad je v podstate tiež databáza, len je organizovaná podľa trochu iných pravidiel, tabuľky nemusia byť normalizované a pod. Podľa Inmona je dátový sklad
- subjektovo orientovaný,
- integrovaný,
- časovo premenný a nemenný súbor dát,
ktorý slúži pre podporu rozhodovania.
Subjektová orientácia - orientácia na to, čím sa daná spoločnosť zaoberá (klient, dodávateľ, produkt, aktivita a pod.). Produkčné databázy sú naopak orientované na operácie a transakcie (pôžičky, faktúry, vklady, výbery a pod.).
Integrovanosť - tým, že dáta vstupujú do dátového skladu z rôznych produkčných databáz treba tieto dáta integrovať - zjednocovať (zjednotenie použitých jednotiek, zjednotenie kódovania).
Časová premennosť - údaje sa ukladajú do dátového skladu ako séria snímok, z ktorých každá reprezentuje určitý časový úsek.
Nemennosť - v zásade môžeme pripustiť dva typy operácií, zavedenie dát do dátového skladu a prístup k týmto dátam.
Vytvorenie dátového skladu pozostáva z načítania dát z produkčných databáz, konverzie dát a ich následného čistenia a transformácie. Dáta uložené v dátovom sklade predstavujú neutrálny dátový priestor. Pre potreby konkrétnych analýz sa vytvárajú dátové trhy, kam sa z dátového skladu presúvajú relevantné dáta pre určitý typ analýzy.
Trojvrstvová architektúra dátového skladu
Väčšina metód, či už štatistických alebo metód strojového učenia pracuje práve s jednou dátovou maticou. Z praktického hľadiska dátové trhy predstavujú virtuálne tabuľky vytvorené nad dátovým skladom, kde premenné reprezentujú atribúty a prípady dátovej matice reprezentujú záznamy.