Tf–idf

Allikas: Vikipeedia

See artikkel vajab toimetamist.

TF-IDF (inglise term frequency–inverse document frequency) on statistiline mõõt, mida kasutatakse tihti infootsingus ja andmekaevanduses.Seda mõõtu kasutatakse sõnade tähtsuse hindamiseks tekstikorpuses. Enamasti kasvab sõna tähtsus proportionaalselt sõna esinemissagedusega. Sellele loogikale ei allu väga tihti kasutatavad sõnad (näiteks sidesõnad, asasõnad jms), millede esinemissagedus on küll suur, aga tähtsus tekstis väike.

Niisiis võib kirjeldada TF (term frequency) ehk termini sagedust järgmiselt:

 \mathrm{tf} = \frac{n_i}{\sum_k n_k}

kus termini esinemissagedus tekstis (ni) on jagatud sõnade hulgaga tekstis.

IDF mõõdab termini üldist tähtsust kasutades järgmist valemit:

 \mathrm{idf} =  \log \frac{|D|}{|(d_{i}\supset t_{i})|}

kus |D| on tekstide arv korpuses ja  |(d_{i}\supset t_{i})| tekstide arv, kus termin ti esineb.

TF-IDF on seega järgmine:

 \mathrm{tfidf} = \mathrm{tf} \cdot  \mathrm{idf}