Fandom

Spamwiki

Token

694oldal a wikin
Add New Page
Vita0 Share

A tokenek az e-mail azon elemi részei, amelyekre a spamszűrő a levél vizsgálata során bontja a szöveget.

Tokenekre bontás Szerkesztés

A tanulásra képes, statisztikai alapú spamszűrők apró elemeire bontják a kapott üzenetet, hogy megállapítsák, azok spamek vagy hamek. A tokenek szavak vagy számok, esetleg IP-cím, weboldal címe stb., melyeket elválasztójelek (például dollár- vagy felkiáltójel) határolnak.

A képes spamek elleni védekezésül gyakran az e-mail fejlécadatait is tokenekre bontják a szoftverek.

Tokenpárok létrehozása Szerkesztés

A „Vegyen olcsó gyógyszereket és nyerjen” mondatot nemcsak szavanként elemzik a programok, hanem azt is megvizsgálják, hogy legitim, nem kereskedelmi célú levelezésben milyen gyakran kerülnek egymás mellé az adott szavak. A fönti mondatot az alábbi tokenekre és tokenpártokra bontják: Vegyen, olcsó, gyógyszereket, és, nyerjen, Vegyen+olcsó, olcsó+gyógyszereket, gyógyszereket+és, és+nyerjen.

Az egymás melletti szavakat összekapcsolva hozzák létre a tokenpárokat, melyeket aztán attól függően pontoznak, hogy azok milyen gyakran fordulnak elő kéretlen levelekben. Például a SpamAssassin szűrő a „Dear Sir” megszólításra 2,65–2,79 pontot ad. A tokenpárokkal történő szűrés akár megduplázhatja a szoftver pontosságát.

Egy magánlevélben is szerepelhet a „order” (rendelni) szó, ezért a valószínűsége 0,4–0,6 pont lehet, de az order+now (rendeljen most) tokenpár már kereskedelmi célú levelet feltételez.

Tokenek visszaállítása Szerkesztés

A spammerek a statisztikai szűrők elleni védekezésül olykor feldarabolják a szavakat vagy különleges, esetleg helytelen írásmódot alkalmaznak (például a Viagra szó esetében), hogy kijátsszák a szűrőket. A programok ezért megpróbálják helyreállítani az így szétbontott szavakat, és visszafejteni őket. Egy felkészült szoftver például tisztában van azzal, hogy a pont karakterekkel felbontott V.I.A.G.R.A szó valójában Viagra.

Adatbázis Szerkesztés

A tokenadatbázis (vagy szótár) egy háttértár, amely a programok által megismert tokeneket tárolják. A szoftver minden levélvizsgálatkor lekéri ezt az adatbázist, ellenőrzi, hogy szerepel-e vagy milyen spamvalószínűséggel szerepel az adott token benne, ha pedig szükséges, akkor módosítja is az adatokat.

Az adatbázis mérete folyamatosan nő, ahogyan újabb és újabb e-mailek (és így újabb és újabb típusú spamek) érkeznek. Még egy otthoni felhasználású spamszűrő is viszonylag hamar összegyűjthet egy 200 000 tokenből álló háttértárat. Némely program a tokeneket 32- vagy 64-bites számokként ábrázolva gyorsítja a lekérdezést és csökkenti az adatbázis méretét. Egy magáncélra használt adatbázis még ötven megabájtos mérettel sem okoz tárhelyproblémát, de egy nagyobb vállalat számára már gondot jelenthet egy több gigabájtot foglaló adatbázis, hiszen minden személynek külön kell kezelni a spamszűrő által megtanult tokenjeit.

Tokenek típusai Szerkesztés

Fejléctoken Szerkesztés

A levél fejlécében szereplő from: mező minden elektronikus levélben megtalálható, így figyelmen kívül hagyható, de a szövegrészben már egészen más jelentősséggel bír. A fejlécben található IP-címek és számítógépnevek pedig a fehér- és feketelisták számára használhatók.

URL-token Szerkesztés

A spammerek gyakran helyettesítő doménneveket használnak a levelekben, sokszor minden címzett más kattintható URL-t kap (például valtozoszoveg1234.spamoldal.hu és valtozoszoveg9999.spamoldal.hu). A szűrők ilyenkor a weboldal utolsó elemét (a fönti példában: spamoldal.hu) veszik figyelembe, és olykor összevetik megfelelő feketelistákkal (SURBL, URIBL stb.) is.

A legtöbb spamszűrő a webcímek elé URL* karaktereket téve készít tokent, míg mások több tokenre bontanak egyetlen hivatkozást. Például a http://www.xxxx.hu/order.cgi?a=xyz címből az alábbi tokenek jöhetnek létre: URL*www URL*xxxx URL*hu URL*order URL*cgi URL*a=xyz.

HTML-token Szerkesztés

A spamszűrők egy része a HTML-, sőt JavaScript-elemeket is figyelembe veszi, és tokenné alakítja, míg más szoftverek nem foglalkoznak velük. Sok spammer HTML-megjegyzésben véletlenszerű szavak használatával próbálják szemetelni a tokenadatbázist. A <!-- bármilyen szöveg --> rész például a címzett számára láthatatlan marad, de a spamszűrő figyelembe veheti.

A téves HTLM-kódokat a böngészők figyelembe sem veszik, nem jelenítik meg őket, de egy rosszul beállított spamszűrőt szintén megzavarhat, ha nem ismeri föl az eredeti szót. A Via<abcde>gra</abcde> szöveg például Viagraként jelenik meg a képernyőn, de a program talán nem ismeri föl.

Degenerálás Szerkesztés

A spammerek a tokenadatbázisok szemetelésére az úgynevezett szósaláták (értelmetlen, a témához nem kapcsolódó szavak láthatatlanul vagy a levél végén) mellett a Paul Graham által degenerálásnak nevezett eljárást is gyakran alkalmazzák.[1] Ilyenkor például írásjelhalmozással azt próbálják elérni, hogy a nagy spamvalószínűségű „free” (ingyenes) szót ne ismerje föl a szűrő, ezért például „FREE!!!!!!!” formában írják. Ez a program számára egy külön szó, ezért új tokent képez belőle. Erre a próbálkozásokra a szűrők általában figyelmen kívül hagyják a többletjeleket, váltogatják a kis- és nagybetűket, így keresik az eredeti kifejezést a tokenadatbázisban.

Hasonló megoldás az idegen, főként ázsiai karakterek használata, mely komolyan megnehezíti a spamszűrők dolgát. Erre általában a szűrők az ismeretlen karaktereket egy másik általánosan használtra, például a csillag (*) karakterre cserélik. Például a nehezen megjeleníthető สแปม (a spam szó thaiul) szóból így **** lesz, mely nagy spamvalószínűséget kap az adatbázisban.

Forrás Szerkesztés

  1. A Plan for Spam: Better Bayesian Filtering (angol)

Kapcsolódó szócikkek Szerkesztés

Ad blocker interference detected!


Wikia is a free-to-use site that makes money from advertising. We have a modified experience for viewers using ad blockers

Wikia is not accessible if you’ve made further modifications. Remove the custom ad blocker rule(s) and the page will load as expected.

A Wikia-hálózat

Véletlen wiki