Získavanie dát
Objavovanie znalostí
Oblasti aplikácií objavovania znalostí
Najznámejšou aplikačnou oblasťou objavovania znalostí je objavovanie znalostí z databáz (Knowledge Discovery in Databases, KDD). Fayyad túto oblasť definoval ako netriviálne získavanie implicitných, predtým neznámych a potencionálne užitočných informácií z dát. Zdrojom dát sú v tomto prípade produkčné databázy, dátové sklady a pod. V niektorých prípadoch je možné kombinovať viaceré zdroje dát, prípadne doplniť tieto dáta údajmi z verejných zdrojov (oficiálne štatistiky, rezortné dáta, demografické údaje a pod.), respektíve údajmi získanými vlastnými prieskumami. Napríklad podnikové dáta o objeme predaja mangánových zliatin môžeme doplniť o dáta z verejných databáz (cena elektrickej energie pre priemysel, produkcia ocele, cena ropy, cena mangánovej rudy, hrubý domáci produkt Číny a pod.), ktoré by potencionálne mohli predstavovať vysvetľujúce premenné. Ďalším príkladom môže byť doplnenie dát z databázy banky o regionálne dáta z verejných databáz (počet pobočiek komerčných bánk, počet podnikov, ekonomicky aktívne obyvateľstvo, miera evidovanej nezamestnanosti a pod.), z ktorých je možné vyčítať ďalšie informácie o prostredí, v ktorom klient žije, ako aj o prostredí, v ktorom je zriadená pobočka banky. KDD má metodický základ v databázach, štatistike a strojovom učení. Cieľom KDD je objavovanie nových, zaujímavých a užitočných znalostí používaním štatistických metód a metód strojového učenia za účelom klasifikácie, segmentácie, objavovania asociačných pravidiel, sekvenčných pravidiel a pod.
V prípade, že sú tieto dáta získavané z textov, nazývame tento proces text miningom, resp. objavovaním znalostí z textov (Knowledge Discovery in Texts, KDT). Zdrojom dát sú v tomto prípade elektronické dokumenty. V súčasnosti sa v čoraz väčšej miere uprednostňuje uchovávanie dokumentov v elektronickej forme na rozdiel od papierovej. Rovnako narastá aj objem obsahu publikovaného na webe. Cieľom objavovania znalostí z textov môže byť odhaľovanie plagiátorstva, hľadanie ustálených štruktúr, väzieb, slovných spojení za účelom automatizovaného prekladu, segmentácia webových stránok podľa obsahu a pod. Objavovanie znalostí z textov je analogické objavovaniu znalostí z databáz. Podobne chápe objavovanie znalostí z textov aj Sullivan v zhode so všeobecnou definíciou objavovania znalostí. Najväčšie rozdiely sú v samotnej príprave dát, t.j. reprezentovať text tak, aby mohli byť použité niektoré analytické nástroje na analýzu dát. Objavovanie znalostí z textov zahŕňa viaceré vedné oblasti. Podobne ako v KDD aj v objavovaní znalostí z textov sú štatistické metódy a metódy strojového učenia prostriedkami k analýze dát. Naopak pri príprave dát stavia hlavne na teoretickej a počítačovej lingvistike.
V súčasnosti internet predstavuje najdynamickejšie sa rozvíjajúci zdroj informácii, čím sa stáva významným zdrojom dát. Webové stránky sú chápané predovšetkým ako zdroj informácií pre používateľov - klientov. Zatiaľ len málo spoločností si uvedomuje skutočnosť, že webové stránky môžu poskytovať informácie i v opačnom smere. Organizácia môže získať množstvo informácií o svojich klientoch, o ich správaní, o ich záujmoch a pod. Z potreby analyzovať tieto dáta vznikla príbuzná oblasť objavovania znalostí z databáz (Knowledge Discovery in Databases, ďalej KDD) – objavovanie znalostí z webu (web mining). Podobne ako objavovanie znalostí z textov aj objavovanie znalostí z webu je analogické objavovaniu znalostí z databáz, resp. z textov v prípade objavovania znalostí na základe obsahu webu. Web mining môžeme definovať ako extrakciu zaujímavých a potenciálne užitočných znalostí a informácií z aktivít súvisiacich s webom (Liu, 2007). Pre uplatnenie metód web miningu niekedy stačí mierne prispôsobiť existujúce postupy z oblasti KDD, inokedy je potrebné zásadnejšie zmeniť kroky predspracovania a transformácie dát. Web mining môžeme kategorizovať podľa toho, ktorá časť webu je analyzovaná, t.j. objavované znalosti z webu môžeme rozdeliť do troch domén:
- objavovanie znalostí na základe obsahu webu (web content mining), ktorého úlohou je objavovanie užitočných informácií dostupných on-line,
- objavovanie znalostí na základe štruktúry webu (web structure mining), ktorého úlohou je objavovanie štruktúry hyperliniek webu,
- objavovanie znalostí na základe používania webu (web usage mining), ktorého úlohou je objavovanie aktivít používateľov súvisiacich s ich prehľadávaním webu.