Bajeso teorema

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.

Bajeso teorematikimybių teorijos teorema, kuri nustato įvykio tikimybę, kai stebint žinoma tik dalinė informacija apie įvykius. Kitaip, pagal Tomą Bajesą galima daug tiksliau nustatyti tikimybę, imant ankščiau žinomą informaciją ir naujų stebėjimų duomenis.

Turinys

[taisyti] Matematinė formuluotė

\Pr(A|B) = \frac{\Pr(B | A) \Pr(A)}{\Pr(B)},

где

\Pr(A) – apriorinė A hipotezės tikimybė;
\Pr(A|B)A hipotezės tikimybė, atsirandant B įvykiui (aposteriorinė tikimybė);
\Pr(B|A) – įvykio B atsiradimo tikimybė esant teisingai A hipotezei;
\Pr(B) – įvykio B tikimybė.

[taisyti] Pritaikymas

[taisyti] Kova su spamu

Kad vieną ar kitą žinutę priskirti spamo filtrui naudojami ”mokymosi“ procese sukurti žodynai. Tam paimamas rankiniu būdu išrinktų pranešimų senas archyvas ir perduodamas programai apmokyti ir padaryti tolimesnę analizę. Programa nustato pasikartojančius žodžius kiekvieno tipo pranešimui – kiek kartų kiekvienas žodis pasirodo laiškuose iš nurodytos bylos. Kai žodynai galutinai sudaryti, tikimybė naujos žinutės priklausomybė spamui apskaičiuojama pagal Bajesą kiekvienam žodžiui iš laiško. Normalizuojant ir sumuojant žodžių tikimybę gaunama tikimybė pagal kurią galima priskirti žinutę prie spamo.

Bajeso teoremos taikymas leidžia apsieiti be pašto dėžučių „juodųjų sąrašų“ sudarymo, Bayeso filtrai gali savarankiškai atpažinti „blogą“ žinutę pagal jo kontekstą, nedaug nusileidžiant žmogaus sugebėjimams, kuriuose reklaminė informacija pateikiama kaip paprastas tekstas ar HTML. Po mokymo ir didelio įdirbio pasiseka atrinkti iki 95 –97% spamo.

Bet šiukšlintojai surado būdą apeiti tokius filtrus. Dėl to į laišką patalpinamas neutralus tekstas, o reklama pridedama kaip paveikslėlis prie teksto. Atsitiktinis tekstas apgauna filtrą ir neduoda galimybės apmokyti. Nors ir yra galimybė pasinaudoti teksto atpažinimo programomis, kuriuos gali iš paveikslėlių išimti tekstą, o paskui jį atiduoti prafiltruoti boyeso filtrui, dažniausiai taip programos nedaro. Beje tokių programų veikimas pareikalaus papildomų kompiuterio pajėgumų.

[taisyti] Literatūra

  • Berdas Kivi. Bayeso teorėma. (Rusų kalba) // Žurmalas „Kompiuteriai“, 2001 m. rugpjūčio 24 d.
  • Paulas Grahamas. A plan for spam (Anglų kalba.). // Paulo Grahamo personali svetainė.

[taisyti] Nuorodos