Získavanie dát

Zdroje dát

Logovacie súbory

Iným príkladom zdroja dát sú automaticky ukladané dáta o používaní webu, rôznych informačných systémov a pod. Spravidla informačné systémy zaznamenávajú dáta o používaní (usage data) vo vlastnej štruktúre, pričom tieto dáta sú najčastejšie organizované v databáze. V prípade webových a proxy serverov sú dáta zaznamenávane v spoločnej štandardnej štruktúre v textovom formáte, v tzv. všeobecnom logovacom súbore (common log file).

Pri práci s webom sa vo všeobecnosti používa viacero logovacích súborov, niektoré na strane servera a iné na strane klienta. Ak sa pozrieme na stranu servera, tak existuje niekoľko typov fyzického umiestnenia webového servera. Prvým je jeho priame pripojenie do Internetu, pričom v tomto prípade logovací súbor si vytvára samotný webový server a tento súbor je jedinečný. Druhým spôsobom pripojenia je pripojenie prostredníctvom proxy servera. Proxy server je na jednej strane pripojený do Internetu a na druhej strane je pripojený k webovému serveru. Úlohou proxy je znižovať zaťaženie webového servera tým, že si ukladá do vyrovnávacej pamäte jednotlivé webové stránky a ak viacero klientov požaduje tú istú stránku tak im ju ponúkne z pamäte a už nepreposiela požiadavku na webový server. Logovací súbor na proxy obsahuje údaje o všetkých prístupoch, kým logovací súbor webového servera je už nekonzistentný. Tretím spôsobom pripojenia webového servera je prostredníctvom vyrovnávača záťaže (load balancer). Ten môže byť tvorený samostatným zariadením alebo len pomocou konfigurácie systému DNS (Domain Name System). V tomto prípade je zapojených niekoľko webových serverov s tým istým obsahom a klienti sa pripájajú na jeden z týchto serverov v závislosti od ich konfigurácie (buď sa požiadavky rozdeľujú postupne tak ako prichádzajú, alebo tak aby každý server bol rovnako vyťažený). V tomto prípade sa môže stať, že každý server si ukladá svoj vlastný logovací súbor a aby sme získali úplný, tak sa musia tieto súbory spojiť.

Zo strany klienta uvažujeme len o dvoch spôsoboch pripojenia. Buď má klient priame pripojenie k Internetu a teda jeho komunikácia je priamo medzi ním a serverom (aj v prípade použitia NAT zariadenia) alebo je pripojený prostredníctvom proxy. V tomto prípade je úloha proxy znižovať záťaž internetového pripojenia takým spôsobom, že ak viacerí klienti požadujú tú istú stránku, tak pripojenie k serveru sa vykoná len raz a jednotlivým klientom je poskytnutá verzia z vyrovnávacej pamäte. Toto má za následok absenciu požiadaviek v logovacích súboroch webových serverov.

Zakaždým, keď používateľ navštívi webovú stránku, posiela na server veľké množstvo informácií.  Logovací súbor vo svojej štandardnej štruktúre - Common Log File zaznamenáva informácie o IP adrese, čase a dátume návštevy, pristupovanom objekte a odkazovanom objekte. V prípade, že použijeme jeho rozšírenú podobu môžeme zaznamenávať aj údaje o verzii prehliadača používateľa, tzv. User-Agent.

Dáta logovacieho súboru väčšinou obsahujú aj množstvo nepotrebných, irelevantných, nepresných a neúplných informácií. Takéto dáta nie sú vhodné pre použitie algoritmami na analýzu webu. Dáta teda musia byť očistené a predspracované.

Riadok logovacieho súboru je zobrazený na obrázok.

Ukážka jedného riadku logovacieho súboru

178.41.1.187 - - [16/Dec/2010:18:16:26 +0100] "GET /studium/akreditovane-programy HTTP/1.1" 200 15364 "http://www.ukf.sk/studium" "Mozilla/5.0 (Windows; U; Windows NT 5.1; sk; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 BLNGBAR"

Z uvedeného riadku je možné vyčítať nasledovné informácie.

Význam jedného riadku logovacieho súboru

IP adresa návštevníka - - [dátum a čas prístupu na stránku] "požiadavka na zobrazenie konktrénej časti vebu + verzia HTTP protokolu" číslo vybavenia požiadavky "predchádzajúca stránka(referrer page)" "verzia prehliadača návštevníka stránky"

Ak poznáme tieto informácie, tak jednoduchým zoradením logovacieho súboru podľa IP adresy a času dokážeme zobraziť napr. nasledujúce informácie.

Sedenie návštevníka webu

178.41.1.187 - - [16/Dec/2010:18:16:26 +0100] "GET HTTP/1.1" ...

178.41.1.187 - - [16/Dec/2010:18:19:43 +0100] "GET /studium HTTP/1.1" ...

178.41.1.187 - - [16/Dec/2010:18:20:19 +0100] "GET /studium/akreditovane-programy HTTP/1.1"...

Z týchto troch riadkov (Obrázok 9) vieme napr. určiť, že návštevník pristupujúci z IP adresy 178.41.1.187 pristúpil na náš web 16. Decembra 2010 a prechádzal na webe postupne hlavnú stránku, stránku štúdium a stránku akreditované študijné programy. Tieto jeho tri prístupy na náš web zachytené v logovacom súbore označujeme ako jedno sedenie návštevníka webu.