Získavanie dát
Zdroje dát
Elektronické dokumenty
Ďalším významným zdrojom dát je text – elektronické dokumenty (kvalifikačné práce, lekárske správy popisujúce symptómy, otvorené odpovede v dotazníkoch, obsah webu a pod.). V prípade obsahu webu sú webové stránky chápané ako dokumenty. Nevýhoda oproti databázam spočíva v neštruktúrovaných dátach. Riešením je vytvorenie takých premenných, ktoré budú vhodne reprezentovať analyzovaný text. Najčastejšie je text dokumentu reprezentovaný vektorom. Vektor má toľko zložiek koľko je kmeňových slov v slovníku, resp. v kolekcii skúmaných dokumentov. Z toho vyplývajú nevýhody ako je veľká dimenzia vektora (veľký počet premenných) a riedke vektory (chýbajúce hodnoty). Každé kmeňové slovo pre daný dokument môže byť kódované:
- Frekvenciou (world frequency, wf), jednoduchou početnosťou výskytu slova.
- Binárnou frekvenciou (binary frequency), binárnym indikátorom výskytu
f(wf) = 1, pre wf > 0.
- Logaritmickou frekvenciou (log frequency), ktorá predstavuje transformáciu jednoduchej početnosti (wf)
f(wf) = 1 + log(wf), pre wf > 0.
Funkacia logaritmu zabezpečuje „tlmenie“ početností výskytu slov, t.j. stabilizáciu rozptylu (pozri kapitolu 2).
- Inverznou dokumentovou frekvenciou (inverse document frequency, idf), ktorá predstavuje veľmi užitočnú transformáciu, zohľadňujúcu špecifickosť slov (document frequencies, df) ako aj celkovú frekvenciu ich výskytov (world frequencies, wf). Inverzná dokumentová frekvencia pre i-te slovo a j-ty dokument je populárna miera dôležitosti slova, relevantnosti vzhľadom na obsah dokumentu
kde predstavuje počet výskytov kmeňového slova v dokumente, dfi je počet výskytov kmeňového slova v celej kolekcii dokumentov (počet dokumentov, ktoré obsahujú i-te slovo) a N udáva počet dokumentov v kolekcii. Súčasťou transformácie je váha, ktorá nadobúda minimálnu hodnotu 0 v prípade, ak sa slovo vyskytuje vo všetkých dokumentoch (log(N/N = 1) = 0) a maximálnu hodnotu, ak sa slovo vyskytuje práve v jednom dokumente (log(N/1) = log(N)).