Zdroje dát

Databázy

Najznámejším zdrojom dát sú produkčné databázy v lepšom prípade dátové sklady, kde sú uložené dáta z produkčných databáz pre potreby rozhodovania. Dátové sklady môžu integrovať dáta aj z iných zdrojov, napr. z verejných (RegDat, databázy Eurostatu). Najčastejšie ide o dáta demografické, socioekonomické a pod. Dátový sklad je v podstate tiež databáza, len je organizovaná podľa trochu iných pravidiel, tabuľky nemusia byť normalizované a pod. Podľa Inmona je dátový sklad

  • subjektovo orientovaný,
  • integrovaný,
  • časovo premenný a nemenný súbor dát,

ktorý slúži pre podporu rozhodovania.

Subjektová orientácia - orientácia na to, čím sa daná spoločnosť zaoberá (klient, dodávateľ, produkt, aktivita a pod.). Produkčné databázy sú naopak orientované na operácie a transakcie (pôžičky, faktúry, vklady, výbery a pod.).

Integrovanosť - tým, že dáta vstupujú do dátového skladu z rôznych produkčných databáz treba tieto dáta integrovať - zjednocovať (zjednotenie použitých jednotiek, zjednotenie kódovania).

Časová premennosť - údaje sa ukladajú do dátového skladu ako séria snímok, z ktorých každá reprezentuje určitý časový úsek.

Nemennosť - v zásade môžeme pripustiť dva typy operácií, zavedenie dát do dátového skladu a prístup k týmto dátam.

Vytvorenie dátového skladu pozostáva z načítania dát z produkčných databáz, konverzie dát a ich následného čistenia a transformácie. Dáta uložené v dátovom sklade predstavujú neutrálny dátový priestor. Pre potreby konkrétnych analýz sa vytvárajú dátové trhy, kam sa z dátového skladu presúvajú relevantné dáta pre určitý typ analýzy. 

Trojvrstvová architektúra dátového skladu

Väčšina metód, či už štatistických alebo metód strojového učenia pracuje práve s jednou dátovou maticou. Z praktického hľadiska dátové trhy predstavujú virtuálne tabuľky vytvorené nad dátovým skladom, kde premenné reprezentujú atribúty a prípady dátovej matice reprezentujú záznamy.