Fandom

Spamwiki

clapf

694oldal a wikin
Add New Page
Vita0 Share

A clapf egy magyar fejlesztésű, de angol nyelvű, statisztikai elven működő spamszűrő, amely az úgynevezett inverz chi-négyzet algoritmust használja, fejlesztője Sütő János. A készítő szerint a spamek 99,5%-át kiszűri, és felismeri a képes spameket is.

A program parancssorból és webes felületen is tanítható, tartalmaz antivírus- és SURBL-támogatást is.

Működés Szerkesztés

A program minden érkező levelet statisztikai számítások alapján megvizsgál, majd ártalmatlan e-mailnek, azaz hamnek vagy kéretlen reklámlevélnek, tehát spamnek minősít. Ezután a levél fejlécébe elhelyez egy X-Clapf-spamicity mezőt, amely tartalmazza a levél azonosítóját, illetve spamvalószínűségét (minél nagyobb ez az érték, annál valószínűbb, hogy a levél spam). A könnyebb kezelés érdekében a spamnek ítélt levelek fejlécébe a X-Clapf-spamicity: Yes mező kerül vagy opcionálisan a Tárgy (Subject) mezőbe egy konfigurálható címke kerül.

Matematikai elv Szerkesztés

A program a levelet tokenekre osztja, azaz megvizsgálja az azokban található egyedi szavakat, de a kettes szókapcsolatokat és a weboldalcímeket is. Például a „Milyen szép nap!” mondat összesen öt tokent tartalmaz: „Milyen”, „szép”, „nap!”, „Milyen+szép” és „szép+nap!”. A program az adatbázisa alapján pontozza a kapott tokeneket, és a semleges középértéktől (0,5) leginkább eltérő 15 tokent veszi figyelembe. A beálított határérték feletti erdemény esetén az üzenetet kéretlen reklámlevélnek minősíti. Nem dobja el az esetleges hamis pozitív eredményeket, hanem megjelöli, és (beállítástól függően) karanténba teszi.

A clapf nem számolja az olyen tokeneket, amelyek csak számokból állnak, kevesebb mint három vagy több mint tizenkilenc karakterből állnak.

Számolási metódus Szerkesztés

Minden szó, illetve szókapcsolat esetén kiszámolja, mekkora a valószínűsége annak, hogy az adott token spam: P = (1-p1) \cdot (1-p2) \cdot ... \cdot (1-pn), ill. ham: Q = p1 \cdot p2 \cdot ... \cdot pn, ahol pn egy token valószínűsége.

Ezután következik az inverz chi-négyzet algoritmusa, amely megadja a kombinált indikátort (I): H = chi2inv(-2 \cdot ln Q, 2*n);
S = chi2inv(-2 \cdot ln P, 2*n);
I = (1 + H - S) / 2;

A ritka szavak valószínűségét a p(w) = ( s \cdot x + n \cdot p(w) ) / (s+n) képlettel számolják, ahol X=0,5, s=1 és n a token előfordulásának száma a clapf adatbázisában.

Kapcsolódó szócikkek Szerkesztés

Külső hivatkozások Szerkesztés

Ad blocker interference detected!


Wikia is a free-to-use site that makes money from advertising. We have a modified experience for viewers using ad blockers

Wikia is not accessible if you’ve made further modifications. Remove the custom ad blocker rule(s) and the page will load as expected.

A Wikia-hálózat

Véletlen wiki