Získavanie dát: Metodiky procesu objavovania znalostí

Objavovanie znalostí

Metodiky procesu objavovania znalostí

Metodika CRISP-DM poskytuje jednotný univerzálny postup pri riešení rôznych úloh z oblasti objavovania znalostí. Metodika pozostáva z postupnosti krokov

Business Understanding<->Data Understanding->Data Preparation<->Modeling

->Evaluation->Deployment,

t.j. porozumenie problematike, porozumenie dátam, príprava dát, analýza dát, vyhodnotenie výsledkov, využitie výsledkov.

Vznikla v polovici deväťdesiatich rokov v rámci európskeho výskumného projektu a je „softvérovo nezávislá“, na rozdiel od metodík, ktorých tvorcami sú producenti štatistických programov a data miningových nástrojov.

Príkladom takejto metodiky bola napr. metodika 5A od spoločnosti SPSS, ktorá asi najviac pripomína metodiku CRISP-DM. Metodika 5A sa skladá z krokov

Assess->Access->Analyze->Act->Automate,

t.j. posúdenie potrieb projektu, získanie potrebných dát, analýza dát, interpretácia užitočných znalostí, aplikácia znalostí do praxe.

V súčasnosti však SPSS v dokumentácii k svojim riešeniam odporúča na riadenie data miningových projektov metodiku CRISP-DM.

Ďalším príkladom je metodika SEMMA od spoločnosti SAS

Sample->Explore->Modify->Modell->Assess,

t.j. výber dát, prieskum dát, transformácia dát, analýza dát, zhodnotenie a interpretácia.

Metodika SEMMA je viac zameraná na technickú časť data miningového projektu a pripomína metodiku Six Sigma vytvorenú za účelom riadenia projektov kontroly kvality vo všetkých oblastiach výroby, manažmentu a pod. Metodiku Six Sigma tvorí sekvencia krokov

Define->Measure->Analyze->Improve->Control,

t.j. definovanie, meranie, analýza, zlepšenie, riadenie.

Väčšina data miningových nástrojov má v sebe implementovanú podporu pre niektorú zo spomínaných metodík. Ako príklad môžeme uviesť SPSS Clementine, ktorý na riadenie projektov používal metodiku 5A a od roku 2001 používa metodiku CRISP-DM. SAS Enterprise Miner pre zmenu zas používa metodiku SEMMA.

Všetky spomínane metodiky umožňujú prenášať skúsenosti z úspešných projektov. V súčasnosti najrozpracovanejšou a najpoužívanejšou je práve metodika CRISP-DM. Primárne vznikla pre riadenie projektov z oblasti objavovania znalostí z databáz, ale je použiteľná aj pre iné aplikačné oblasti ako je text, web a pod. Toto predstavuje aj jednu z priorít aktualizácie metodiky, s čím súvisia hlavne nové techniky prípravy dát, ktoré si vyžiadali nové typy dát ako je napr. text. Bez ohľadu na to sa metodika CRISP-DM úspešne uplatňuje aj v ďalších oblastiach.

Napr. Dan Sullivan vo svojej knihe uvádza viaceré aplikácie objavovania znalostí z textov, pričom proces objavovania znalostí riadi metodikou CRISP-DM. Podobne aj Grobelnik v projekte pre nakladateľstvo zameranom na podpory vyhľadávania v textových databázach a na automatickú kategorizáciu dokumentov riadi proces objavovania znalostí metodikov CRISP-DM.

Príkladom inej oblasti a nasedenia metodiky CRISP-DM je štatistická analýza logovacieho súboru domény www.volkswagen.de. V oblasti objavovania znalostí na základe používania webu (WUM) sa tento proces rozdeľuje do troch základných častí

Preprocessing->Pattern Discovery->Pattern Analysis,

kde tieto tri časti WUM procesu korešpondujú s fázami metodiky CRISP-DM

Data Preparation<->Modeling->Evaluation.

Najväčšie rozdiely medzi aplikačnými oblasťami objavovania znalostí pri riadení procesu metodikou CRISP-DM sú vo fáze prípravy dát (Data Preparation). Príprava dát predstavuje časovo najnáročnejšiu fázu v rámci celého procesu objavovania znalostí. Zložitosť prípravy dát závisí od použitého zdroja dát. Vstupom do analytických procedúr je dátový súbor o M premenných a N prípadoch. Predmetom prípravy dát nie je iba transformácia dát do podoby vyžadovanej analytickými nástrojmi, ale aj samotná kvalita dát.

Relatívne najjednoduchšia príprava dát je v prípade použitia databázy ako zdroja dát. Najčastejšie sú dáta organizované v relačnej databáze, pričom väčšina analytických metód vyžaduje organizovať dáta do jednej dátovej matice. Príprava dát pozostáva zjednodušene z výberu, čistenia, vytvárania, integrovania a formátovania dát. V prípade dátového skladu odpadá čistenie a integrovanie dát, čo prípravu dát skracuje ešte výraznejšie.

V prípade elektronických dokumentov premennými by boli kmeňové slová a prípadmi by boli váhy jednotlivých kmeňových slov v texte každého z dokumentov, t.j. každý textový dokument reprezentuje vektor váh primárne odvodený z frekvencie výskytov kmeňových slov. Zjednodušene príprava dát pozostáva z konverzie dokumentov na čistý text a následne z identifikácie kmeňových slov. Detailnejšie o reprezentácii elektronických dokumentov a príprave dát za účelom analýzy textu sa pojednáva v knihách z oblastí text miningu, obsahovej analýzy a pod.

Medzi najnáročnejšie zdroje dát z hľadiska prípravy dát patrí logovací súbor webového servera. Väčšina portálov nevyžaduje autentifikáciu používateľov, resp. ak je dobrovoľná je v minimálnej miere používaná, t.j. najvypuklejším problémom je identifikácia používateľov portálu, resp. návštevníkov webu. Problém predstavujú aj prístupy robotov (crawlerov, spiderov) rôznych vyhľadávacích služieb. Ďalším problém súvisí s vyrovnávacou „keš“ pamäťou prehliadača. Jej používaním sa pri pohybe späť (tlačidlo dozadu) zobrazená stránka už nezaznamenáva do logovacieho súboru. V prípade dát z logovacieho súboru nie je problémom reprezentácia dát ako pri texte, ale skôr kvalita - spoľahlivosť dát.