Získavanie dát

Site: amos.ukf.sk
Course: PAD kopírovanie 1
Book: Získavanie dát
Printed by: Guest user
Date: Thursday, 18 July 2024, 6:29 AM

Meranie

Proces merania je predpokladom získania dát. Namerané hodnoty odrážajú vplyv meranej veličiny/konštruktu, vplyv iných veličín/konštruktov a náhodnej chyby. Napríklad, keby meracou procedúrou bol didaktický test, tak konštruktom, ktorý nás zaujíma, je vedomosť a konštrukty, ktoré nás nezaujímajú, sú strach z testu, jazyková schopnosť a náhodnou chybou je chyba hodnotiteľa.

Model pre meranie inštrumentom:

nameraná hodnota = hypotetická správna hodnota + chyba merania.

Pri chybe merania rozlišujeme náhodnú a systematickú chybu. Systematická chyba nadobúda približne rovnaké hodnoty.

Meracie procedúry

Rozlišujeme nasledovné meracie procedúry:

  • Dotazovanie - rozlišujeme tu viaceré formy. K základným patrí výkaz, ktorý je špecifickou formou dotazovania v našom ponímaní je využívaný pre štátnu štatistiku a je určený k sledovaniu činnosti ekonomických subjektov. Ďalšou formou je dotazník, ktorého podstatou sú podrobne naformulované položky – najčastejšie vo forme otázok. Poslednou základnou formou je rozhovor, ktorého najčastejšou formou je štandardizovaný rozhovor (pri komunikácii s respondentom sa postupuje podľa záznamového hárku).

Pre ďalšie spracovanie dotazníka, je ideálne použiť škálovanie položiek.

Pravidlá pre tvorbu škály:

    • Pre škálu volíme nepárny počet hodnôt (najčastejšie sa používa 5, 7 a 9 hodnotová škála).
    • Minimálne uvádzame slovný ekvivalent strednej hodnote a krajným hodnotám škály (napr. 1 – Určite áno, 3 – Ani áno, ani nie, 5 – Určite nie), resp. môžeme pomenovať všetky hodnoty (v našom prípade 2 - Skôr áno, 4 - Skôr nie).
    • Hodnoty ako Neviem, Nerelevantné a pod. nemôžu byť súčasťou škály, (napr. Ani súhlasím, ani nesúhlasím <> Neviem sa vyjadriť).
    • Zvyčajne najvyššia hodnota škály vyjadruje pozitívne hodnotenie, avšak nie je to pravidlom. Dôležité je, aby v celej meracej procedúre, boli škály použité rovnakým smerom.
  • Pozorovanie - napr. zisťovanie cien v obchodoch, pozorovanie vyučovacieho procesu.
  • Testovanie - napr. didaktické, psychologické, diagnostické testy. Didaktický test je meraním kvality a kvantity skutočných vedomostí a zručností študentov z istej skúmanej problematiky (oblasti).
  • Meranie metrických údajov - napr. hmotnosť, teplota a iné fyzikálne veličiny.
  • Špeciálne formy meracích procedúr:
    • AVL (Audio/Video-Likeability) - patrí medzi špeciálne formy dotazovania, táto forma spočíva v hodnotení multimediálnych ukážok.

Metódou AVL je hlavne možné testovať reklamné spoty, tlačené materiály, ale i marketingové koncepty. Pri testovaní reklamy, či jej návrhov a konceptov (storyboard, animatic) tu získavame nielen výsledky typu „ktorá reklama (návrh) sa najviac páči“, ale i jej hodnotenie v priebehu ukážky, hodnotenie v súvislosti s niekoľkými ďalšími (i konkurenčnými reklamami), určenie, ktorú reklamu si respondenti najlepšie zapamätali a pod.

Špecifickým príkladom využitia tejto procedúry je taktiež senzorické testovanie výrobku v kombinácii s určením najvhodnejšieho obalu a prijateľnej ceny.

    •  Peoplemetre - patria medzi špeciálne formy pozorovania, slúžia hlavne na elektronické meranie sledovanosti televíznych programov, ale aj rozhlasového vysielania (The portable people meter).

Peoplemeter je zariadenie, ktoré na základe sledovaného programu odosiela informácie do centrály merania – zaznamenáva čas, program, dĺžku sledovania relácie, každé prepnutie počas reklamy na iný kanál a pod. Týmto spôsobom sa získa skutočná sledovanosť programov (The System).

 Proces získavania dát prostredníctvom peoplemetrov

Meranie sledovanosti s peoplemetrami sa na Slovensku začalo realizovať v roku 2004 na vzorke 800 domácností, čo zodpovedalo prierezu skupín divákov na 5 miliónov obyvateľov. Od roku 2010 sa počet domácností navýšil na 1200, čo predstavuje približne 3600 jednotlivcov. Vo vybraných domácnostiach je na každý TV prijímač nainštalované elektronické zariadenie - peoplemeter, ktoré priebežne zaznamenáva, v akom čase ktorý člen domácnosti sleduje aký kanál. S divákmi komunikuje prostredníctvom displeja. Peoplemeter sa zapne automaticky spolu s televízorom a zistí frekvenciu kanálu, ktorý je naladený. Nevie však, kto televíziu sleduje, preto vyzve, aby sa prihlásil konkrétny divák prostredníctvom diaľkového ovládania. Tak sa zisťuje aj pohlavie, či vek divákov. Keď divák odchádza z miestnosti, odhlási sa. Ak sa odhlási posledný divák, peoplemeter vie, ktorý program je zapnutý, a vie, že ho nikto nesleduje. Diváci na žiadosť, ktorá sa zobrazí na displeji, môžu číslom ohodnotiť program, či sa im páči, alebo nie. V prípade, že ide celý deň ten istý kanál, centrála to preveruje. V prípade pochybností vylúči domácnosť z denného merania. Všetky dáta sa posielajú do centrály, kde sa vyhodnocujú. Na Slovensku je prenos dát z peoplemetrov zabezpečený mobilnou technológiou GPRS. Na prenos údajov z domácností do centrály sa využívajú SIM karty s aktivovanými dátovými paušálmi vložené priamo do peoplemetrov. Centrála využíva pri komunikácii so zariadeniami služby dátovej virtuálnej privátnej siete cez GPRS, ktorá rieši prepojenie geograficky vzdialených zariadení (Case study – peoplemetre v sieti Orange). K vyhodnoteniu sledovanosti sú potrebné aj televízne udalosti - podrobné informácie o vysielaní. Po vyhodnotení získaných dát sa poskytujú podrobné výsledky o sledovanosti televíznych staníc  vysielateľom, reklamným agentúram a zadávateľom reklamy.

Spôsoby zberu dát

Rozlišujeme nasledovné spôsoby zberu dát:

  • prostredníctvom siete anketárov,
  • poštou,
  • telefonicky,
  • elektronicky.

Príkladom elektronického zberu dát je tvorba formulárov (dotazníkov, ankiet a pod.) a ich sprístupnenie cez webové rozhranie.  Väčšina redakčných systémov podporuje tvorbu prieskumov, pričom vytvorené prieskumy je štandardne možné sprístupniť nielen autentifikovaným používateľom, ale aj anonymným návštevníkom portálu.

Príklady škálovaných položiek v prostredí Windows SharePoint Services

Ďalšou možnosťou elektronického zberu dát je realizácia mobilného prieskumu, pri ktorom využívame palmtopy prepojené na databázový server a tak realizujeme prieskum priamo v teréne. Takýto spôsob zberu údajov je hlavne efektívnejší – nemusíme pracne prevádzať údaje do počítača.

Architektúra systému k mobilnému prieskumu

Proces mobilného prieskumu môžeme rozdeliť do troch fáz – príprava dotazníka, zber dát a vyhodnotenie dotazníka. Celý proces začína vytvorením dotazníka, pomocou formulára. Formulár je nutné uložiť na databázový server, kde je pripravený pre synchronizáciu s PDA. Po nahraní dát  z databázového serveru na PDA je PDA pripravené k realizácii prieskumu. Po fyzickej realizácii prieskumu sa zosynchronizujú dáta medzi databázovými servermi. Synchronizované dáta z databázy sa presunú do dátového skladu, kde sa následne spracujú (Prieskum).

Premenná a dátová tabuľka

Výsledkom merania je premenná. Podľa toho, aké hodnoty nadobúda môžeme premenné rozdeľovať na:

  • nominálne/kvalitatívne – pre úrovne premennej platia vzťahy xa <> xb, podľa toho, či premenná nadobúda dve alebo viac úrovní rozlišujeme nominálne premenné dichotomické (napr. pohlavie) a polytomické (napr. absolvované predmety),
  • ordinálne – platia vzťahy xa < xb alebo xa > xb (napr. prospech), úrovne hodnoty môžeme usporiadať, ale nemeriame ich vzdialenosť,
  • metrické – rozlišujeme intervalové a pomerové, pri intervalových môže byť definovaná veľkosť rozdielu xa - xb a nie je definovaná absolútna nula (napr. teplota v stupňoch Celzia – nula stupňov neznamená, že sa tam nevyskytuje žiadna teplota), pri pomerovej je definovaná absolútna nula a teda má zmysel povedať, že objekt A je xa / xb krát väčší ako B, ak xa > xbxb <> 0 (napr. počet predaných automobilov – nula predaných automobilov znamená, že sa nepredal ani jeden automobil).

Ordinálne a metrické premenné sa nazývajú intenzívne/kvantitatívne.

Každý riadok dátovej tabuľky obsahuje merania týkajúce sa jednej štatistickej jednotky (prvku, jedinca, objektu, subjektu) a  stĺpce odpovedajú jednotlivým štatistickým znakom (premenným), ktoré sú predmetom skúmania. Napríklad štatistickými jednotkami môžu byť študenti, u ktorých sme zisťovali štatistické znaky ako vek, prospech a pohlavie. Stĺpce dátovej tabuľky sa taktiež označujú ako veličiny alebo atribúty a riadky ako pozorovania, merania, prípady alebo príklady

Dátová tabuľka

 

Vek

Prospech

Pohlavie

1

22

A

m

2

21

C

ž

...

...

...

...

79

26

FX

m

80

20

D

ž

Kvalita merania

Základnými charakteristikami merania sú objektivita, reliabilita a validita.

  • Objektivita znamená stupeň toho, ako sú výsledky nezávislé na výskumníkovi alebo meranej jednotke v zmysle skreslenia merania.
  • Reliabilita je ukazovateľom presnosti, spoľahlivosti merania.
  • Validita predstavuje platnosť merania, t.j. požaduje, aby meracia procedúra skutočne merala to, čo predpokladáme, že meria.

Koncept validity a objektivity je triviálny, keď sa jedná o meranie metrických údajov. Ale pri hodnotení merania v psychológii alebo sociológii sa objektivita musí preskúšať. Rovnako validita sa stáva komplikovanou záležitosťou, keď sa jedná o osobnostné charakteristiky.

V ďalšom bližšie vysvetlíme objektivitu, reliabilitu a validitu na didaktickom teste ako príklade meracej procedúry.

Objektivitu didaktického testu môžeme zaručiť tým, že v teste použijeme tzv. objektívne úlohy (s výberom odpovede, usporiadacie, doplňovacie, priraďovacie), takéto úlohy môžu byť ohodnotené prostredníctvom výpočtovej techniky. Odhad objektivity je dôležitý hlavne pri úlohách skórovaných zložene (nie binárne 0/1), respektíve pri testoch, ktoré obsahujú neobjektívne úlohy.

Reliabilita didaktického testu je ukazovateľom presnosti, spoľahlivosti merania. Reliabilita sa určuje koeficientom reliability. Ak sa koeficient reliability rovná jednej, tak výsledok didaktického testu neovplyvnila únava, strach, opisovanie, vyrušovanie, nepochopenie zadania úlohy, a pod. Takúto hodnotu koeficientu reliability nemôže didaktický test dosiahnuť. Istá chyba sa vyskytne pri každom meraní. Našou snahou je túto chybu zredukovať na minimum. Reliabilita odzrkadľuje technickú kvalitu testu. Vysoká reliabilita testu však ešte nezaručuje, že test je validný. Ale naopak, ak test má byť validný, musí byť vysoko reliabilný.

Validita didaktického testu je najdôležitejším ukazovateľom kvality didaktického testu. Je to miera zhody, do akej miery didaktický test naozaj meria to, čo merať má. Rozlišujeme validitu obsahovú, kritériovú, predikčnú a pojmovú. Obsahová validita určuje, či test rovnomerne pokrýva celé učivo, ktoré je obsahom testovania. Kritériová validita predstavuje mieru zhody medzi výsledkami didaktického testu a nejakým iným kritériom úspešnosti (napr. známkami z príslušného predmetu). Predikčná validita slúži na prognózovanie, predpovedanie určitej vlastnosti, schopnosti a pod. Pojmová (konštruktová) validita didaktického testu vyjadruje rozsah, v akom didaktický test meria určitú charakteristiku alebo psychologický konštrukt (napr. schopnosť študovať na určitom type školy).

Výskumné plány

Výskumné plány predstavujú postupy, ktoré nám umožnia zodpovedať výskumné otázky. Budeme sa hlavne zaoberať dvoma výskumnými plánmi – štatistickým zisťovanímexperimentom. Pri štatistickom zisťovaní sledujeme jednotky (jedincov, objekty) a zaznamenávame premenné, ale nemanipulujeme s premennými na rozdiel od experimentu, kde cielene manipulujeme s nezávislou premennou, aby sme zistili ako ovplyvňuje závislú premennú.

Štatistické zisťovanie

V štatistickom zisťovaní rozlišujeme cenzus a výberové zisťovanie.

Cenzus (totálny výber/úplný výber) je výskumný plán, kde sa do výskumu zahrňujú všetky jednotky populácie, preto sa stretávame aj s termínom totálny výber, respektíve úplný výber. Príkladom cenzusu je sčítanie obyvateľstva, súpis maloobchodných predajní. Cenzus hlavne pre svoj rozsah býva pokladaný za zložitý, časovo a finančne náročný projekt. A preto býva často nahradzovaný výberovým zisťovaním. Nie vždy však musí byť cenzus rozsiahly projekt, niekedy môže populáciu predstavovať iba zopár jednotiek. Napríklad chceli by sme zistiť názory všetkých zamestnancov katedry.

Cenzus

Na rozdiel od cenzusu, ktorý poskytuje presné charakteristiky základného súboru – populácie, výberové zisťovanie (neúplný výber) (Obrázok 5) poskytuje presné charakteristiky iba pre výberový súbor,  za celú populáciu môže poskytnúť iba približné hodnoty týchto charakteristík.

Výberové zisťovanie

Rozlišujeme nenáhodné a náhodné výbery.

Nenáhodné výbery sa neodporúčajú, ale nie vždy je možné realizovať náhodný výber. Ich nevýhoda spočíva v tom, že nie je možné na základe získaných výsledkov robiť závery pre celú populáciu, ale iba pre získanú vzorku. Zovšeobecňovanie záverov z nenáhodných výberov nie je optimálne vzhľadom na to, že získané dáta môžu byť skreslené.

Medzi nenáhodné výbery patrí:

  • Výber na základe dobrovoľnosti

Jedinci z populácie sa sami rozhodnú, či poskytnú informácie. Príkladom môže byť prieskum verejnej mienky alebo televízny program - politická talk show, kde hlasujú iba vysoko motivovaní diváci.

  • Výber na základe dostupnosti

Jedinci sú z populácie vyberaní na základe dostupnosti a výhodnosti. Príkladom môže byť marketingový výskum o nákupných zvykoch zákazníkov v nejakej predajni, k dispozícii máme určitý počet dostupných jedincov v predajni v určitý čas alebo medicínsky výskum s pacientmi, ktorí sú hospitalizovaní s určitou chorobou v danej nemocnici.

  • Kvótny výber

Dopredu máme stanovený určitý počet jedincov v rôznych kategóriách. Napríklad určitý počet obyvateľov z kategórií ako vek, pohlavie, vzdelanie, ekonomický status a pod.

Náhodné výbery  eliminujú výberové skreslenie, pretože každý jedinec v rámci zvoleného základného súboru má rovnakú šancu byť vybraný ako iný jedinec. Najspoľahlivejšie sa uskutočňuje náhodný výber žrebovaním, pomocou tabuľky náhodných čísel alebo pomocou generátorov náhodných čísel.

Tabuľka náhodných čísel je súbor náhodných čísel zapísaný v stĺpcoch a v riadkoch. Môžeme ju získať rôznymi spôsobmi. Pri zostavovaní dokonalého súboru náhodných čísel (súbor, v ktorom je pravdepodobnosť výskytu jednotlivých čísel približne rovnaká) nám pomáhajú počítače generovaním náhodných čísel. Generátory náhodných čísel sú súčasťou štatistického softvéru, tabuľkových kalkulátorov a sú aj dostupné na webových stránkach (http://www.graphpad.com/quickcalcs/index.cfm). Dlhé súbory náhodných čísel, usporiadané do stĺpcov a riadkov, sa nachádzajú v knihách pod názvom „Tabuľka náhodných čísel“. Dôležitou vlastnosťou tabuliek náhodných čísel je, že každá  z desiatich číslic sa tam nachádza rovnako často. Pravdepodobnosť jej výskytu na ľubovoľnom, náhodne vybratom mieste je 0,1. Aj každá zo sto dvojíc 00, 01, 02, 03,....99 sa tu vyskytuje rovnako často. Pravdepodobnosť ich výskytu v tabuľke náhodných čísel je 0,01. Takisto pre každú trojicu 000, 001, 002, ....999 je pravdepodobnosť výskytu 0,001. Atď.

Tabuľka náhodných čísel

39634 62349 74088 65564 16379 19713 39153 69459 17986 24537

14595 35050 40469 27478 44526 67331 93365 54526 22356 93208

30734 71571 83722 79712 25775 65178 07763 82928 31131 30196

64628 89126 91254 24090 25752 03091 39411 73146 06089 15630

42831 95113 43511 42082 15140 34733 68076 18292 69486 80468

80583 70361 41047 26792 78466 03395 17635 09697 82447 31405

00209 90404 99457 72570 42194 49043 24330 14939 09865 45906

05409 20830 01911 60767 55248 79253 12317 84120 77772 50103

95836 22530 91785 80210 34361 52228 33869 94332 83868 61672

65358 70469 87149 89509 72176 18103 55169 79954 72002 20582

72249 04037 36192 40221 14918 53437 60571 40995 55006 10694

41692 40581 93050 48734 34652 41577 04631 49184 39295 81776

61885 50796 96822 82002 07973 52925 75467 86013 98072 91942

48917 48129 48624 48248 91465 54898 61220 18721 67387 66575

88378 84299 12193 03785 49314 39761 99132 28775 45276 91816

77800 25734 09801 92087 02955 12872 89848 48579 06028 13827

24028 03405 01178 06316 81916 40170 53665 87202 88638 47121

86558 84750 43994 01760 96205 27937 45416 71964 52261 30781

78545 49201 05329 14182 10971 90472 44682 39304 19819 55799

14969 64623 82780 35686 30941 14622 04126 25498 95452 63937

58697 31973 06303 94202 62287 56164 79157 98375 24558 99241

38449 46438 91579 01907 72146 05764 22400 94490 49833 09258

62134 87244 73348 80114 78490 64735 31010 66975 28652 36166

72749 13347 65030 26128 49067 27904 49953 74674 94617 13317

81638 36566 42709 33717 59943 12027 46547 61303 46699 76243

46574 79670 10342 89543 75030 23428 29541 32501 89422 87474

11873 57196 32209 67663 07990 12288 59245 83638 23642 61715

13862 72778 09949 23096 01791 19472 14634 31690 36602 62943

08312 27886 82321 28666 72998 22514 51054 22940 31842 54245

11071 44430 94664 91294 35163 05494 32882 23904 41340 61185

82509 11842 86963 50307 07510 32545 90717 46856 86079 13769

07426 67341 80314 58910 93948 85738 69444 09370 58194 28207

57696 25592 91221 95386 15857 84645 89659 80535 93233 82798

08074 89810 48521 90740 02687 83117 74920 25954 99629 78978

20128 53721 01518 40699 20849 04710 38989 91322 56057 58573

00190 27157 83208 79446 92987 61357 38752 55424 94518 45205

23798 55425 32454 34611 39605 39981 74691 40836 30812 38563

85306 57995 68222 39055 43890 36956 84861 63624 04961 55439

99719 36036 74274 53901 34643 06157 89500 57514 93977 42403

95970 81452 48873 00784 58347 40269 11880 43395 28249 38743

56651 91460 92462 98566 72062 18556 55052 47614 80044 60015

71499 80220 35750 67337 47556 55272 55249 79100 34014 17037

66660 78443 47545 70736 65419 77489 70831 73237 14970 23129

35483 84563 79956 88618 54619 24853 59783 47537 88822 47227

09262 25041 57862 19203 86103 02800 23198 70639 43757 52064

Pri použití tabuľky náhodných čísel sa do výberu zaradia tie prvky, ktorých poradové čísla boli nájdene v tabuľke od námatkovo zvoleného čísla. Postupovať sa môže ľubovoľným smerom (kolmo, vodorovne, šikmo), smer sa však nesmie svojvoľne meniť.

  • Prostý náhodný výber

Postup:

    1. vytvoríme zoznam jednotiek celej populácie a ku každej jednotke priradíme poradové číslo (ak ide o zoznam obcí alebo osôb odporúča sa zoradiť ich podľa abecedy, takéto zoradenie je nezávislé takmer voči všetkým znakom),
    2. určíme rozsah výberového súboru n,
    3. vygenerujeme n náhodných celých čísel.

Pomer medzi rozsahom výberu n a veľkosťou populácie N nazývame výberový pomer

výberový pomer = n/N.

Výberový pomer je pravdepodobnosť, že prvok populácie je zaradený do výberu.

Prostý náhodný výber môže byť s vrátením a bez vrátenia prvku. Ak chceme použiť výber s vrátením je vhodné, aby bol výberový pomer malý (<5%).

  • Stratifikovaný náhodný výber

Tento výber realizujeme vtedy, keď populácia obsahuje subpopulácie. Potom realizujeme prostý náhodný výber pre každú skupinu zvlášť. Výsledky pre všetky skupiny potom tvoria výber. Príkladom je, keď populáciu je možné stratifikovať na mestské a vidiecke obyvateľstvo alebo podľa vzdelania. Zastúpenie týchto subpopulácii vo výbere je dôležité napr. pri volebných prieskumoch.

  • Viacstupňový zhlukový výber

Pri tomto druhu výberu sa v každej vrstve zhlukov realizuje náhodný výber. Príkladom je výskum verejnej mienky - chceme zistiť informácie o domácnostiach na sídliskách.

            Postup:

  1. náhodne sa vyberie vzorka okresov,
  2. náhodne sa vyberú mestá z týchto okresov,
  3. náhodne sa vyberú sídliská z týchto miest,
  4. náhodne sa vyberú domácnosti z týchto sídlisk.
  • Systematický výber

Tento výber iba vyžaduje, aby prvky boli zoradené do postupnosti. Z nej sa potom vyberá každý k-ty prvok od náhodne vybraného. Napríklad chceme vybrať 50 jedincov z 1000, potom z prvých 20 náhodne vyberieme jedného a potom vyberáme každého 20-teho od prvého vybraného.

Metodika výberového zisťovania:

  1. Návrh typu výberu a spôsobu zberu dát.
  2. Konštrukcia meracej procedúry (napr. dotazníka).
  3. Posúdenie kvality meracej procedúry (napr. preskúšanie odpovedí, analýza spoľahlivosti škály).
  4. Zber dát (napr. realizácia dotazovania).
  5. Kódovanie, oprava dát a prevedenie dát do počítača.
  6. Overenie validity použitých štatistických metód.
  7. Analýza dát a interpretácia výsledkov.

Experimant

Experiment je štúdia, v ktorej výskumník pomocou zámerných zmien podmienok (intervencie) skúma, aké zmeny nastali u jednej alebo viacerých skupín pokusných jednotiek.

Pretest označuje prvé meranie cieľovej premennej – pred intervenciou, posttest druhé – po intervencii. V komparatívnom experimente pracuje výskumník s minimálne dvoma skupinami. Kontrolná skupina pozostáva z jednotiek, ktoré nie sú vystavené intervencii (ošetreniu). Experimentálna skupina pozostáva z jednotiek, ktoré naopak sú vystavené intervencii (ošetreniu) – experimentálnemu pôsobeniu.

Premenná je prvok experimentu, ktorý sa môže meniť, nadobúdať rôzne hodnoty alebo vlastnosti. Skóre posttestu, resp. aj skóre pretestu alebo diferenčné skóre pretestu a posttestu vystupuje ako závislá premenná (cieľová premenná). Pôsobenie intervencie na cieľovú premennú zastupujú nezávislé premenné (faktory). Ak pretest nevystupuje ako závislá premenná môže vystupovať ako kovarianta (spojitá nezávislá premenná).

Pri realizácii experimentu môžeme použiť rôzne experimentálne plány. Stručne popíšeme tri najpoužívanejšie: experimentálny plán s použitím pretestu a posttestu, experimentálny plán s použitím posttestu a Solomonov experimentálny plán.

Experimentálnym plánom s použitím pretestu a posttestu zistíme na konci experimentu rozdiel medzi výkonom v preteste a postteste v každej zo skupín. Ak bol v jednej skupine tento rozdiel väčší môžeme povedať, že pôsobenie nezávislej premennej tu bolo výraznejšie ako v druhej skupine.

Schéma experimentálneho plánu - pretest - posttest

skupina

pretest

pôsobenie

posttest

experimentálna

OK  

ošetrenie

OK  

kontrolná

OK  

kontrola

OK  

Experimentálny plán s použitím posttestu (Tabuľka 4) môže byť použitý iba vtedy, ak sú jednotky do skupín vybrané  náhodným spôsobom. Náhodnosť zaručuje, že skupiny sú v skúmanej vlastnosti rovnocenné.

Schéma experimentálneho plánu - posttest

skupina

pretest

pôsobenie

posttest

experimentálna

-

ošetrenie

OK  

kontrolná

-

kontrola

OK  

Solomonov experimentálny plán s použitím štyroch skupín (Tabuľka 5) je kombináciou dvoch predchádzajúcich plánov. Jednotky sú zoradené do skupín náhodným spôsobom. Výhodou tohto experimentálneho plánu je, že umožňuje kontrolovať prípadný účinok pretestu na jednotky, keďže dve skupiny absolvujú pretest a dve nie. Stáva sa totiž, že pretest niekedy ovplyvní posttest, alebo že ovplyvní experimentálne pôsobenie.

Schéma Solomonovho experimentálneho plánu

skupina

pretest

pôsobenie

posttest

experimentálna

OK  

ošetrenie

OK  

kontrolná

OK  

kontrola

OK  

experimentálna

-

ošetrenie

OK  

kontrolná

-

kontrola

OK  

Pretest znamená zistenie vlastností jednotiek pred začatím experimentálneho pôsobenia. Ide o vlastnosti jednotiek, ktoré sa majú v priebehu experimentu meniť. Napríklad týmito vlastnosťami môže byť úroveň vedomostí a zručností študentov. V experimentálnej skupine zavedieme experimentálne pôsobenie (tým sa líši od kontrolnej skupiny). Všetko ostatné prebieha rovnako z hľadiska ďalších podmienok. Posttest znamená zistenie vlastností subjektov na konci experimentu.

Metodika experimentu:

  1. Vytvorenie kontrolnej a experimentálnej skupiny.
  1. Vytvorenie reliabilných a validných meracích procedúr (napr. didaktických testov).
  2. Realizácia experimentálneho plánu.
  3. Kódovanie, oprava dát a prevedenie dát do počítača.
  4. Porozumenie dátam.
  5. Overenie validity použitých štatistických metód.
  6. Analýza dát a interpretácia výsledkov.

Validita výskumu

Pri validite výskumu rozlišujeme medzi externou  a internou validitou. Interná validita znamená do akej miery je preukazný vzťah medzi závislou a nezávislou premennou. Napríklad pri experimente chceme vedieť, či zlepšenie výsledkov skutočne spôsobila intervencia a nie nejaká iná príčina. Externá validita sa týka možnosti zovšeobecniť závery, t.j. či výsledky platia aj pre inú skupinu jedincov. Väčšiu internú validitu majú dobre realizované experimenty, naopak výberové zisťovanie založené na náhodnom výbere má vyššiu externú validitu.

Zdroje dát

V predchádzajúcich kapitolách sme sa zamerali na získavanie dát za účelom analýzy, v tejto kapitole sa zameriame na dáta, ktoré nevznikli s cieľom ich následnej analýzy a na ich potencionálne využitie.

Posledných dvadsať rokov môžeme charakterizovať trendom výrazne narastajúceho objemu elektronických dát. V súčasnosti sa zbiera a eviduje veľké množstvo údajov v rôznych oblastiach ako je priemysel, poisťovníctvo, bankovníctvo, obchod, telekomunikácie, štátna správa a pod. Okrem iného rôzne zariadenia a prístroje denne zaznamenávajú obrovské množstvo dát. Rovnako narastá aj množstvo dát publikovaných na webe. Dnešná doba je charakteristická množstvom elektronicky dostupných dát na jednej strane, ale často nedostatkom znalostí na strane druhej. Tieto dáta nie sú zbierané cielene, tak aby odpovedali napríklad na dané hypotézy, ale sú zhromažďované primárne z iných dôvodov. Zautomatizovaním zberu dát, zaznamenávaním a publikovaním elektronických dát vznikla potreba tieto dáta používať v procese rozhodovania.

Ako príklady zdrojov dát uvádzame databázy, elektronické dokumenty a logovacie súbory. Všetky tieto a ďalšie zdroje dát môžu byť potencionálne užitočné pri tvorbe rôznych akcií, na predvídanie správania zákazníkov, zisťovanie príčin porúch, odhaľovanie podvodov a pod.

Databázy

Najznámejším zdrojom dát sú produkčné databázy v lepšom prípade dátové sklady, kde sú uložené dáta z produkčných databáz pre potreby rozhodovania. Dátové sklady môžu integrovať dáta aj z iných zdrojov, napr. z verejných (RegDat, databázy Eurostatu). Najčastejšie ide o dáta demografické, socioekonomické a pod. Dátový sklad je v podstate tiež databáza, len je organizovaná podľa trochu iných pravidiel, tabuľky nemusia byť normalizované a pod. Podľa Inmona je dátový sklad

  • subjektovo orientovaný,
  • integrovaný,
  • časovo premenný a nemenný súbor dát,

ktorý slúži pre podporu rozhodovania.

Subjektová orientácia - orientácia na to, čím sa daná spoločnosť zaoberá (klient, dodávateľ, produkt, aktivita a pod.). Produkčné databázy sú naopak orientované na operácie a transakcie (pôžičky, faktúry, vklady, výbery a pod.).

Integrovanosť - tým, že dáta vstupujú do dátového skladu z rôznych produkčných databáz treba tieto dáta integrovať - zjednocovať (zjednotenie použitých jednotiek, zjednotenie kódovania).

Časová premennosť - údaje sa ukladajú do dátového skladu ako séria snímok, z ktorých každá reprezentuje určitý časový úsek.

Nemennosť - v zásade môžeme pripustiť dva typy operácií, zavedenie dát do dátového skladu a prístup k týmto dátam.

Vytvorenie dátového skladu pozostáva z načítania dát z produkčných databáz, konverzie dát a ich následného čistenia a transformácie. Dáta uložené v dátovom sklade predstavujú neutrálny dátový priestor. Pre potreby konkrétnych analýz sa vytvárajú dátové trhy, kam sa z dátového skladu presúvajú relevantné dáta pre určitý typ analýzy. 

Trojvrstvová architektúra dátového skladu

Väčšina metód, či už štatistických alebo metód strojového učenia pracuje práve s jednou dátovou maticou. Z praktického hľadiska dátové trhy predstavujú virtuálne tabuľky vytvorené nad dátovým skladom, kde premenné reprezentujú atribúty a prípady dátovej matice reprezentujú záznamy.

Elektronické dokumenty

Ďalším významným zdrojom dát je textelektronické dokumenty (kvalifikačné práce, lekárske správy popisujúce symptómy, otvorené odpovede v dotazníkoch, obsah webu a pod.). V prípade obsahu webu sú webové stránky chápané ako dokumenty. Nevýhoda oproti databázam spočíva v neštruktúrovaných dátach. Riešením je vytvorenie takých premenných, ktoré budú vhodne reprezentovať analyzovaný text. Najčastejšie je text dokumentu reprezentovaný vektorom. Vektor má toľko zložiek koľko je kmeňových slov v slovníku, resp. v kolekcii skúmaných dokumentov. Z toho vyplývajú nevýhody ako je veľká dimenzia vektora (veľký počet premenných) a riedke vektory (chýbajúce hodnoty). Každé kmeňové slovo pre daný dokument môže byť kódované:

  • Frekvenciou (world frequency, wf), jednoduchou početnosťou výskytu slova.


 

  • Binárnou frekvenciou (binary frequency), binárnym indikátorom výskytu

f(wf) = 1, pre wf  > 0.

  • Logaritmickou frekvenciou (log frequency), ktorá predstavuje transformáciu jednoduchej početnosti (wf)

f(wf) = 1 + log(wf), pre wf  > 0.

Funkacia logaritmu zabezpečuje „tlmenie“ početností výskytu slov, t.j. stabilizáciu rozptylu (pozri kapitolu 2).

  • Inverznou dokumentovou frekvenciou (inverse document frequency, idf), ktorá predstavuje veľmi užitočnú transformáciu, zohľadňujúcu špecifickosť slov (document frequencies, df) ako aj celkovú frekvenciu ich výskytov (world frequencies, wf). Inverzná dokumentová frekvencia pre i-te slovo a j-ty dokument je populárna miera dôležitosti slova, relevantnosti vzhľadom na obsah dokumentu

kde  predstavuje počet výskytov kmeňového slova v dokumente, dfi je počet výskytov kmeňového slova v celej kolekcii dokumentov (počet dokumentov, ktoré obsahujú i-te slovo) a N udáva počet dokumentov v kolekcii. Súčasťou transformácie je váha, ktorá nadobúda minimálnu hodnotu 0 v prípade, ak sa slovo vyskytuje vo všetkých dokumentoch (log(N/N = 1) = 0) a maximálnu hodnotu, ak sa slovo vyskytuje práve v jednom dokumente (log(N/1) = log(N)).

Logovacie súbory

Iným príkladom zdroja dát sú automaticky ukladané dáta o používaní webu, rôznych informačných systémov a pod. Spravidla informačné systémy zaznamenávajú dáta o používaní (usage data) vo vlastnej štruktúre, pričom tieto dáta sú najčastejšie organizované v databáze. V prípade webových a proxy serverov sú dáta zaznamenávane v spoločnej štandardnej štruktúre v textovom formáte, v tzv. všeobecnom logovacom súbore (common log file).

Pri práci s webom sa vo všeobecnosti používa viacero logovacích súborov, niektoré na strane servera a iné na strane klienta. Ak sa pozrieme na stranu servera, tak existuje niekoľko typov fyzického umiestnenia webového servera. Prvým je jeho priame pripojenie do Internetu, pričom v tomto prípade logovací súbor si vytvára samotný webový server a tento súbor je jedinečný. Druhým spôsobom pripojenia je pripojenie prostredníctvom proxy servera. Proxy server je na jednej strane pripojený do Internetu a na druhej strane je pripojený k webovému serveru. Úlohou proxy je znižovať zaťaženie webového servera tým, že si ukladá do vyrovnávacej pamäte jednotlivé webové stránky a ak viacero klientov požaduje tú istú stránku tak im ju ponúkne z pamäte a už nepreposiela požiadavku na webový server. Logovací súbor na proxy obsahuje údaje o všetkých prístupoch, kým logovací súbor webového servera je už nekonzistentný. Tretím spôsobom pripojenia webového servera je prostredníctvom vyrovnávača záťaže (load balancer). Ten môže byť tvorený samostatným zariadením alebo len pomocou konfigurácie systému DNS (Domain Name System). V tomto prípade je zapojených niekoľko webových serverov s tým istým obsahom a klienti sa pripájajú na jeden z týchto serverov v závislosti od ich konfigurácie (buď sa požiadavky rozdeľujú postupne tak ako prichádzajú, alebo tak aby každý server bol rovnako vyťažený). V tomto prípade sa môže stať, že každý server si ukladá svoj vlastný logovací súbor a aby sme získali úplný, tak sa musia tieto súbory spojiť.

Zo strany klienta uvažujeme len o dvoch spôsoboch pripojenia. Buď má klient priame pripojenie k Internetu a teda jeho komunikácia je priamo medzi ním a serverom (aj v prípade použitia NAT zariadenia) alebo je pripojený prostredníctvom proxy. V tomto prípade je úloha proxy znižovať záťaž internetového pripojenia takým spôsobom, že ak viacerí klienti požadujú tú istú stránku, tak pripojenie k serveru sa vykoná len raz a jednotlivým klientom je poskytnutá verzia z vyrovnávacej pamäte. Toto má za následok absenciu požiadaviek v logovacích súboroch webových serverov.

Zakaždým, keď používateľ navštívi webovú stránku, posiela na server veľké množstvo informácií.  Logovací súbor vo svojej štandardnej štruktúre - Common Log File zaznamenáva informácie o IP adrese, čase a dátume návštevy, pristupovanom objekte a odkazovanom objekte. V prípade, že použijeme jeho rozšírenú podobu môžeme zaznamenávať aj údaje o verzii prehliadača používateľa, tzv. User-Agent.

Dáta logovacieho súboru väčšinou obsahujú aj množstvo nepotrebných, irelevantných, nepresných a neúplných informácií. Takéto dáta nie sú vhodné pre použitie algoritmami na analýzu webu. Dáta teda musia byť očistené a predspracované.

Riadok logovacieho súboru je zobrazený na obrázok.

Ukážka jedného riadku logovacieho súboru

178.41.1.187 - - [16/Dec/2010:18:16:26 +0100] "GET /studium/akreditovane-programy HTTP/1.1" 200 15364 "http://www.ukf.sk/studium" "Mozilla/5.0 (Windows; U; Windows NT 5.1; sk; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 BLNGBAR"

Z uvedeného riadku je možné vyčítať nasledovné informácie.

Význam jedného riadku logovacieho súboru

IP adresa návštevníka - - [dátum a čas prístupu na stránku] "požiadavka na zobrazenie konktrénej časti vebu + verzia HTTP protokolu" číslo vybavenia požiadavky "predchádzajúca stránka(referrer page)" "verzia prehliadača návštevníka stránky"

Ak poznáme tieto informácie, tak jednoduchým zoradením logovacieho súboru podľa IP adresy a času dokážeme zobraziť napr. nasledujúce informácie.

Sedenie návštevníka webu

178.41.1.187 - - [16/Dec/2010:18:16:26 +0100] "GET HTTP/1.1" ...

178.41.1.187 - - [16/Dec/2010:18:19:43 +0100] "GET /studium HTTP/1.1" ...

178.41.1.187 - - [16/Dec/2010:18:20:19 +0100] "GET /studium/akreditovane-programy HTTP/1.1"...

Z týchto troch riadkov (Obrázok 9) vieme napr. určiť, že návštevník pristupujúci z IP adresy 178.41.1.187 pristúpil na náš web 16. Decembra 2010 a prechádzal na webe postupne hlavnú stránku, stránku štúdium a stránku akreditované študijné programy. Tieto jeho tri prístupy na náš web zachytené v logovacom súbore označujeme ako jedno sedenie návštevníka webu.

Objavovanie znalostí

Spoločnou črtou spomínaných zdrojov dát je veľký objem dát. Zoberme si len do úvahy databázu banky, kde okrem účtov, klientov, dispozičných práv, kreditných kariet, úverov, trvalých príkazov a pod. sa zaznamenávajú aj najdôležitejšie údaje o zmenách na účtoch – dáta o realizovaných operáciách, ktoré denne môžu pribúdať rádovo v tisícoch. Podobne sú na tom portály organizácii, kde sa veľa krát, samozrejme v závislosti od ich návštevnosti, pristupuje k analýze dát o používaní len vybranej časti portálu. Napríklad v prípade portálu banky môžeme zvlášť analyzovať prístupy na časti individuálni klienti, malí podnikatelia, stredné a veľké firmy a pod. Ako ďalší príklad by sme mohli uviesť antiplagiátorský systém  do ktorého ročne pribúda tisíce nových bakalárskych a diplomových prác.

Obrovské množstvo údajov má ale slabú vypovedajúcu hodnotu. Za týmto účelom vznikol koncept objavovania znalostí (Knowledge Discovery, KD). Objavovanie znalostí chápeme ako proces, ktorý zahrňuje výber dát, predspracovanie dát, transformáciu dát, analýzu dát a interpretáciu výsledkov.

Princíp objavovania znalostí

Princíp objavovania znalostí si môžeme priblížiť na analýze návštevnosti webu . Dáta o používaní webu sa zaznamenávajú do logovacieho súboru webového servera. Z veľkého objemu dát môžeme získať informácie pre lepšie porozumenie dátam. Týmito informáciami môžu byť napríklad štatistiky počtu prístupov za dané časové obdobie, počet návštev - identifikovaných sekvencií (costumer’s sequencies) alebo priemerná dĺžka identifikovaných sekvencií - návštev na webe a pod. Výsledkom sekvenčnej analýzy sú sekvenčné pravidlá (sequence rules), ktoré reprezentujú získané znalosti. Od nájdených pravidiel požadujeme aby boli nielen jasné ale aj užitočné. Pričom len časť objavených znalostí - vzorcov správania sa používateľov webu, je použiteľná z hľadiska aplikácie. Zvyšné pravidlá sú z hľadiska užitočnosti triviálne, resp. nevysvetliteľné, t.j. nepoužiteľné, resp. neprinášajúce nové znalosti.

Oblasti aplikácií objavovania znalostí

Najznámejšou aplikačnou oblasťou objavovania znalostí je objavovanie znalostí z databáz (Knowledge Discovery in Databases, KDD). Fayyad túto oblasť definoval ako netriviálne získavanie implicitných, predtým neznámych a potencionálne užitočných informácií z dát. Zdrojom dát sú v tomto prípade produkčné databázy, dátové sklady a pod. V niektorých prípadoch je možné kombinovať viaceré zdroje dát, prípadne doplniť tieto dáta údajmi z verejných zdrojov (oficiálne štatistiky, rezortné dáta, demografické údaje a pod.), respektíve údajmi získanými vlastnými prieskumami. Napríklad podnikové dáta o objeme predaja mangánových zliatin môžeme doplniť o dáta z verejných databáz (cena elektrickej energie pre priemysel, produkcia ocele, cena ropy, cena mangánovej rudy, hrubý domáci produkt Číny a pod.), ktoré by potencionálne mohli predstavovať vysvetľujúce premenné.  Ďalším príkladom môže byť doplnenie dát z databázy banky o regionálne dáta z verejných databáz (počet pobočiek komerčných bánk, počet podnikov, ekonomicky aktívne obyvateľstvo, miera evidovanej nezamestnanosti a pod.), z ktorých je možné vyčítať ďalšie informácie o prostredí, v ktorom klient žije, ako aj o prostredí, v ktorom je zriadená pobočka banky. KDD má metodický základ v databázach, štatistike a strojovom učení. Cieľom KDD je objavovanie nových, zaujímavých a užitočných znalostí používaním štatistických metód a metód strojového učenia za účelom klasifikácie, segmentácie, objavovania asociačných pravidiel, sekvenčných pravidiel a pod.

V prípade, že sú tieto dáta získavané z textov, nazývame tento proces text miningom, resp. objavovaním znalostí z textov (Knowledge Discovery in Texts, KDT). Zdrojom dát sú v tomto prípade elektronické dokumenty. V súčasnosti sa v čoraz väčšej miere uprednostňuje uchovávanie dokumentov v elektronickej forme na rozdiel od papierovej. Rovnako narastá aj objem obsahu publikovaného na webe. Cieľom objavovania znalostí z textov môže byť odhaľovanie plagiátorstva, hľadanie ustálených štruktúr, väzieb, slovných spojení za účelom automatizovaného prekladu, segmentácia webových stránok podľa obsahu a pod. Objavovanie znalostí z textov je analogické objavovaniu znalostí z databáz. Podobne chápe objavovanie znalostí z textov aj Sullivan v zhode so všeobecnou definíciou objavovania znalostí. Najväčšie rozdiely sú v samotnej príprave dát, t.j. reprezentovať text tak, aby mohli byť použité niektoré analytické nástroje na analýzu dát. Objavovanie znalostí z textov zahŕňa viaceré vedné oblasti. Podobne ako v KDD aj v objavovaní znalostí z textov sú štatistické metódy a metódy strojového učenia prostriedkami k analýze dát. Naopak pri príprave dát stavia hlavne na teoretickej a počítačovej lingvistike.

V súčasnosti internet predstavuje najdynamickejšie sa rozvíjajúci zdroj informácii, čím sa stáva významným zdrojom dát. Webové stránky sú chápané predovšetkým ako zdroj informácií pre používateľov - klientov. Zatiaľ len málo spoločností si uvedomuje skutočnosť, že webové stránky môžu poskytovať informácie i v opačnom smere. Organizácia môže získať množstvo informácií o svojich klientoch, o ich správaní, o ich záujmoch a pod. Z potreby analyzovať tieto dáta vznikla príbuzná oblasť objavovania znalostí z databáz (Knowledge Discovery in Databases, ďalej KDD) – objavovanie znalostí z webu (web mining). Podobne ako objavovanie znalostí z textov aj objavovanie znalostí z webu je analogické objavovaniu znalostí z databáz, resp. z textov v prípade objavovania znalostí na základe obsahu webu. Web mining môžeme definovať ako extrakciu zaujímavých a potenciálne užitočných znalostí a informácií z aktivít súvisiacich s webom (Liu, 2007). Pre uplatnenie metód web miningu niekedy stačí mierne prispôsobiť existujúce postupy z oblasti KDD, inokedy je potrebné zásadnejšie zmeniť kroky predspracovania a transformácie dát. Web mining môžeme kategorizovať podľa toho, ktorá časť webu je analyzovaná, t.j. objavované znalosti z webu môžeme rozdeliť do troch domén:

  • objavovanie znalostí na základe obsahu webu (web content mining), ktorého úlohou je objavovanie užitočných informácií dostupných on-line,
  • objavovanie znalostí na základe štruktúry webu (web structure mining), ktorého úlohou je objavovanie štruktúry hyperliniek webu,
  • objavovanie znalostí na základe používania webu (web usage mining), ktorého úlohou je objavovanie aktivít používateľov súvisiacich s ich prehľadávaním webu.

Metodiky procesu objavovania znalostí

Metodika CRISP-DM poskytuje jednotný univerzálny postup pri riešení rôznych úloh z oblasti objavovania znalostí. Metodika pozostáva z postupnosti krokov

Business Understanding<->Data Understanding->Data Preparation<->Modeling

->Evaluation->Deployment,

t.j. porozumenie problematike, porozumenie dátam, príprava dát, analýza dát, vyhodnotenie výsledkov, využitie výsledkov.

Vznikla v polovici deväťdesiatich rokov  v rámci európskeho výskumného projektu a je „softvérovo nezávislá“, na rozdiel od metodík, ktorých tvorcami sú producenti štatistických programov a data miningových nástrojov.

Príkladom takejto metodiky bola napr. metodika 5A od spoločnosti SPSS, ktorá asi najviac pripomína metodiku CRISP-DM. Metodika 5A sa skladá z krokov

Assess->Access->Analyze->Act->Automate,

t.j. posúdenie potrieb projektu, získanie potrebných dát, analýza dát, interpretácia užitočných znalostí, aplikácia znalostí do praxe.

V súčasnosti však SPSS v dokumentácii k svojim riešeniam odporúča na riadenie data miningových projektov metodiku CRISP-DM.

Ďalším príkladom je  metodika SEMMA od spoločnosti SAS

Sample->Explore->Modify->Modell->Assess,

t.j. výber dát, prieskum dát, transformácia dát, analýza dát, zhodnotenie a interpretácia.

Metodika SEMMA je viac zameraná na technickú časť data miningového projektu a pripomína metodiku Six Sigma vytvorenú za účelom riadenia projektov kontroly kvality vo všetkých oblastiach výroby, manažmentu a pod. Metodiku Six Sigma tvorí sekvencia krokov

Define->Measure->Analyze->Improve->Control,

t.j. definovanie, meranie, analýza, zlepšenie, riadenie.

Väčšina data miningových nástrojov má v sebe implementovanú podporu pre niektorú zo spomínaných metodík. Ako príklad môžeme uviesť SPSS Clementine, ktorý na riadenie projektov používal metodiku 5A a od roku 2001 používa metodiku CRISP-DM. SAS Enterprise Miner pre zmenu zas používa metodiku SEMMA.

Všetky spomínane metodiky umožňujú prenášať skúsenosti z úspešných projektov. V súčasnosti najrozpracovanejšou a najpoužívanejšou je práve metodika CRISP-DM. Primárne vznikla pre riadenie projektov z oblasti objavovania znalostí z databáz, ale je použiteľná aj pre iné aplikačné oblasti ako je text, web a pod. Toto predstavuje aj jednu z priorít aktualizácie metodiky, s čím súvisia hlavne nové techniky prípravy dát, ktoré si vyžiadali nové typy dát ako je napr. text. Bez ohľadu na to sa metodika CRISP-DM úspešne uplatňuje aj v ďalších oblastiach.

Napr. Dan Sullivan vo svojej knihe uvádza viaceré aplikácie objavovania znalostí z textov, pričom proces objavovania znalostí riadi metodikou CRISP-DM. Podobne aj Grobelnik v projekte pre nakladateľstvo zameranom na podpory vyhľadávania v textových databázach a na automatickú kategorizáciu dokumentov riadi proces objavovania znalostí metodikov CRISP-DM.

Príkladom inej oblasti a nasedenia metodiky CRISP-DM je štatistická analýza logovacieho súboru domény www.volkswagen.de. V oblasti objavovania znalostí na základe používania webu (WUM) sa tento proces rozdeľuje do troch základných častí

Preprocessing->Pattern Discovery->Pattern Analysis,

kde tieto tri časti WUM procesu korešpondujú s fázami metodiky CRISP-DM

Data Preparation<->Modeling->Evaluation.

Najväčšie rozdiely medzi aplikačnými oblasťami objavovania znalostí pri riadení procesu metodikou CRISP-DM sú vo fáze prípravy dát (Data Preparation). Príprava dát predstavuje časovo najnáročnejšiu fázu v rámci celého procesu objavovania znalostí. Zložitosť prípravy dát závisí od použitého zdroja dát. Vstupom do analytických procedúr je dátový súbor o M premenných a N prípadoch. Predmetom prípravy dát nie je iba transformácia dát do podoby vyžadovanej analytickými nástrojmi, ale aj samotná kvalita dát.

Relatívne najjednoduchšia príprava dát je v prípade použitia databázy ako zdroja dát. Najčastejšie sú dáta organizované v relačnej databáze, pričom väčšina analytických  metód vyžaduje organizovať dáta do jednej dátovej matice. Príprava dát pozostáva zjednodušene z výberu, čistenia, vytvárania, integrovania a formátovania dát. V prípade dátového skladu odpadá čistenie a integrovanie dát, čo prípravu dát skracuje ešte výraznejšie.

V prípade elektronických dokumentov premennými by boli kmeňové slová a prípadmi by boli váhy jednotlivých kmeňových slov v texte každého z dokumentov, t.j. každý textový dokument reprezentuje vektor váh primárne odvodený z frekvencie výskytov kmeňových slov. Zjednodušene príprava dát pozostáva z konverzie dokumentov na čistý text a následne z identifikácie kmeňových slov. Detailnejšie o reprezentácii elektronických dokumentov a príprave dát za účelom analýzy textu sa pojednáva v knihách z oblastí text miningu, obsahovej analýzy a pod.

Medzi najnáročnejšie zdroje dát z hľadiska prípravy dát patrí logovací súbor webového servera. Väčšina portálov nevyžaduje autentifikáciu používateľov, resp. ak je dobrovoľná je v minimálnej miere používaná, t.j. najvypuklejším problémom je identifikácia používateľov portálu, resp. návštevníkov webu. Problém predstavujú aj prístupy robotov (crawlerov, spiderov) rôznych vyhľadávacích služieb. Ďalším problém súvisí s vyrovnávacou „keš“ pamäťou prehliadača. Jej používaním sa pri pohybe späť (tlačidlo dozadu) zobrazená stránka už nezaznamenáva do logovacieho súboru. V prípade dát z logovacieho súboru nie je problémom reprezentácia dát ako pri texte, ale skôr kvalita - spoľahlivosť dát.

Objavovanie znalostí verzus výskumné plány

V podstate môžeme objavovanie znalostí prirovnať k výskumným plánom. Ale predsa je tu jeden podstatný rozdiel, kým pri výskumných plánoch sú dáta získané cielene tak, aby odpovedali na dané ciele (hypotézy), v objavovaní znalostí sú získané z dátových zdrojov, ktoré nevznikli s cieľom ich následnej analýzy, ale sú zhromaždené primárne z iných dôvodov a nemusia obsahovať požadované informácie. Samozrejme sú tu aj ďalšie rozdiely, v objavovaní znalostí sa spracovávajú a analyzujú „veľké dáta“, použitie analytických metód je formalizované, kým pri výskumných plánoch použité metódy závisia na hypotézach a ich návrh je súčasťou plánu. V tomto procese je snahou zhodnotiť všetky dáta s cieľom získania nových znalostí využiteľných pre rozhodovanie.

V literatúre sa často odlišujú tieto dva prístupy, resp. nebývajú predmetom jednej publikácie. Napriek tomu nájdeme aj spoločné body v týchto na prvý pohľad odlišných prístupoch. V prípade výskumných plánov získavame dáta z výskumnej vzorky, podobne v prípade objavovania znalostí musíme zhromaždiť validné dáta z dostupných zdrojov. Výskumné plány rovnako ako aj objavovanie znalostí  predstavujú určitý proces a vznikajú k nim metodiky, ktoré nám umožňujú prenášať skúsenosti z úspešných projektov. V obidvoch prístupoch na získané a spracované dáta aplikujeme štatistické metódy, ako metódy exploračnej analýzy, tak aj metódy inferenčnej analýzy. V objavovaní znalostí okrem tradičných štatistických metód sa na analýzu dát  uplatňujú aj metódy strojového učenia, ktoré však veľmi úzko súvisia s konceptom exploračnej analýzy dát.

Zhrnutie

Lekcia bude ukončená krátkym zhrnutím vzdelávacieho materiálu.