Získavanie dát
Objavovanie znalostí
Spoločnou črtou spomínaných zdrojov dát je veľký objem dát. Zoberme si len do úvahy databázu banky, kde okrem účtov, klientov, dispozičných práv, kreditných kariet, úverov, trvalých príkazov a pod. sa zaznamenávajú aj najdôležitejšie údaje o zmenách na účtoch – dáta o realizovaných operáciách, ktoré denne môžu pribúdať rádovo v tisícoch. Podobne sú na tom portály organizácii, kde sa veľa krát, samozrejme v závislosti od ich návštevnosti, pristupuje k analýze dát o používaní len vybranej časti portálu. Napríklad v prípade portálu banky môžeme zvlášť analyzovať prístupy na časti individuálni klienti, malí podnikatelia, stredné a veľké firmy a pod. Ako ďalší príklad by sme mohli uviesť antiplagiátorský systém do ktorého ročne pribúda tisíce nových bakalárskych a diplomových prác.
Obrovské množstvo údajov má ale slabú vypovedajúcu hodnotu. Za týmto účelom vznikol koncept objavovania znalostí (Knowledge Discovery, KD). Objavovanie znalostí chápeme ako proces, ktorý zahrňuje výber dát, predspracovanie dát, transformáciu dát, analýzu dát a interpretáciu výsledkov.
Princíp objavovania znalostí
Princíp objavovania znalostí si môžeme priblížiť na analýze návštevnosti webu . Dáta o používaní webu sa zaznamenávajú do logovacieho súboru webového servera. Z veľkého objemu dát môžeme získať informácie pre lepšie porozumenie dátam. Týmito informáciami môžu byť napríklad štatistiky počtu prístupov za dané časové obdobie, počet návštev - identifikovaných sekvencií (costumer’s sequencies) alebo priemerná dĺžka identifikovaných sekvencií - návštev na webe a pod. Výsledkom sekvenčnej analýzy sú sekvenčné pravidlá (sequence rules), ktoré reprezentujú získané znalosti. Od nájdených pravidiel požadujeme aby boli nielen jasné ale aj užitočné. Pričom len časť objavených znalostí - vzorcov správania sa používateľov webu, je použiteľná z hľadiska aplikácie. Zvyšné pravidlá sú z hľadiska užitočnosti triviálne, resp. nevysvetliteľné, t.j. nepoužiteľné, resp. neprinášajúce nové znalosti.