Fandom

Spamwiki

Bayesian-szűrés

694oldal a wikin
Add New Page
Vita3 Share
Thomasbayes.jpg

A névadó, Thomas Bayes.

A Bayesian-szűrés (nálunk inkább Bayes-szűrés) egy spamszűrő eljárás, mely az úgynevezett Bayesian-elmélet (Bayes-elmélet) szerint működik. Az eredetileg Thomas Bayes szerzetes (~1702–1761) által kifejlesztett statisztikai elméletet 1998-ban dolgozták át, majd 2002-ben publikálta Paul Graham (1964–) A Plan for Spam (Egy terv a spamekre) című publikációjában. Ezt a módszert használja többek között a SpamAssassin spamszűrő és a Mozilla Thunderbird nevű levelezőprogram.

Matematikai működési elv Szerkesztés

Az eredetileg matematikai elméletet a következőképpen ültették át a spamek világába: annak a valószínűségét, hogy egy e-mail spam, a benne lévő szavak határozzák meg, ez a valószínűség azonban egyenlő a bizonyos szavak és valamennyi e-mail osztva a szavakkal, melyek szerepelnek a hagyományos üzenetekben. A Bayes-képlet matematikailag így fest: \Pr(\mathrm{spam}|\mathrm{szavak}) = \frac{\Pr(\mathrm{szavak}|\mathrm{spam})\Pr(\mathrm{spam})}{\Pr(\mathrm{szavak})}.

Általános működési elv Szerkesztés

Ha egy e-mailben szerepel a „Viagra” szó, akkor – bár nagy eséllyel spamről van szó – az egyáltalán nem bizonyítja, hogy az üzenet valóban kéretlen reklámlevél. A program sorozatos tanulás után elsajátítja, hogy statisztikailag mely üzenetek tekinthetőek spamnek, az ilyeneket pedig egy külön könyvtárba küldi. Bizonyos szavak és kifejezések több pontot (nagyobb súlyt) érnek az elbírálás során, ha pedig egy levél átlépi a szükséges küszöböt, nagy valószínűséggel valóban kéretlen reklámlevél.

A szűrésre 95%-os pontosság jellemző.

Tanítása Szerkesztés

A technika egy kezdeti tanítási fázison alapul, amikor a spamekből és hamekből álló adatbázis megfelelő méretű lesz a statisztikai számítások elvégzéséhez. A felhasználó többféle tanítási módozat közül választhat, ha már ez az adatbázis rendelkezésre áll:

  • Train-On-Error: csak hibás kategorizálás esetén
  • Train-Until-No-Errors: mindaddig, míg van hibás kategorizálás
  • Train-Everything: az összes levélre
  • Train-Until-Mature: amíg az ismétlődő szövegelemek el nem érik a megadott szintet (Zdziarski technikája)

Támadása Szerkesztés

Nagyito.png Fő szócikk: Bayesian-mérgezés

John Graham-Cumming 2006 februárjában rámutatott a Bayesian-mérgezés (Bayes-mérgezés) nevű módszerre, melynek az a lényege, hogy valódi, spampontokat nem érő szavak tucatjaival tűzdelnek teli egy üzenetet, így az kevesebb pontot fog elérni, és nem fog kéretlen reklámlevélnek tűnni, noha valójában az.

Kapcsolódó szócikkek Szerkesztés

Külső hivatkozások Szerkesztés

Ad blocker interference detected!


Wikia is a free-to-use site that makes money from advertising. We have a modified experience for viewers using ad blockers

Wikia is not accessible if you’ve made further modifications. Remove the custom ad blocker rule(s) and the page will load as expected.

A Wikia-hálózat

Véletlen wiki