Takových pět nevyžádaných emailů za den lze ještě přežít, ale v momentě, kdy mi jich denně chodilo přes deset, to už člověku dojde trpělivost. Proto jsem vyhlásil spamu válku.

Poslední dobou jsem začal mít problém se spamem. Takových pět nevyžádaných emailů za den lze ještě přežít, ale v momentě, kdy mi jich denně chodilo přes deset, to už člověku dojde trpělivost. Používám emailového klienta Bat!, který je výborný (narozdíl od Outlook Express), avšak v defaultní instalaci problém spamu moc nereší. Rozhodl jsem se tedy vyhlásit spamu válku. Začal jsem googlit a hledat vhodný antispam filter. Zjistil jsem, že existují defacto dva typy takových filtrů.

Prvním typem jsou filtry, které filtrují poštu podle způsobu dopravy, přesněji podle IP adresy. Existují ohromné databáze obsahující IP adresy, ze kterých bylo zaznamenáno rozesílání spamu. Takové databáze se nazývají Blacklisty. Antispam se podívá na IP adresu odesílatele mailu (obsaženou v hlaviččce), porovná ji s blacklisty (proto se tato metoda nazývá Blacklisting) a na základě shody určí, zda je daný email spam nebo ne. Vzhledem k tomu, že blacklisty jsou neustále aktualizovány, jedná se poměrně spolehlivou metodu.

Druhým typem jsou filtry vyhodnocující spam podle obsahu mailu. Ty se dále dělí na dva typy: filtry založené na pravidlech a filtry založené na učení. Filtry založené na pravidlech filtrují maily (jak už je z názvu patrné) podle určitých přednastavených pravidel. Tímto pravidlem může být například výskyt určitého slova (erection, viagra, alert, atd.) či slovního spojení. Indikací spamu může dále být datum odeslání v budoucnosti, nepovolené znaky a chyby v hlavičce. Každá takováto stopa, značící, že daný email je spam, je bodově ohodnocena. Pokud součet dobů přesáhne určitou hranici, je email filtrem vyhodnocen jako spam. Tako metoda filtrování vyžaduje neustálé updatování pravidel, protože praktiky spamerů se stále mění a vyvíjejí.

Nyní se dostáváme k filtrům založeným na učení. Těmto filtrům se říká bayesovské podle matematika Bayese, který navrhl vzorec pro výpočet pravděpodobnosti, který tato metoda používá. Filtr extrahuje informace z doručených emailů a ty si ukládá do databáze. Mail je rozebrán na slova a pro ně se statisticky zjišťuje pravděpodobnost, že email, který toto slovo obsahuje, je spam. Poté se podle Baysova vzorce pravděpodobnosti vyhodnotí, zda se jedná o spam či ne. Pokud se program splete, máte možnost ho opravit a říci mu, že udělal chybu. To je právě ten prvek učení. Program si danou skutečnost uloží do databáze a příště je šance, že program udělá chybu, menší. Takto si ho můžete vycvičit až téměř k dokonalosti. Tyto filtry jsou podle mě jedny z nejúčinnějších, protože sám uživatel učí program podle svého individuálního názoru, co je spam a co ne.

Jedním z antispam filterů fungujících na bayesovské metodě je právě program K9. Autorem je waleský programátor jménem Robin Keir. Po nainstalování bude program sloužit jako prostředník mezi pop3 serverem a vaším emailovým klientem. Program stáhne mail ze serveru, pokud ho vyhodnotí jako spam, označí ho (buď slovem «spam» v předmětu, nebo přidáním hlavičky «X-Text-Classification: spam»), poté si ho stáhne váš klient a podle podmínky, kterou si nastavíte (například pokud předmět emailu obsahuje slovo spam) přesune email do vybraného adresáře nebo ho rovnou smaže.

Konfigurace programu není složitá. K9 se bude spouštět automaticky po startu Windows. Ve vašem emailovém klientovi je nutné provést několik změn, aby K9 fungovalo korektně:

To je vše ke konfiguraci. Nyní počkejte na příchozí spamy. Ze začátku bude program občas chybovat a jako spam označí vaši soukromou zprávu, či naopak spam označí jako normání email. V takovém případě si K9 otevřete a v hlavním okně v záložce Recent Emails změnte u daného emailu políčku spam z Yes na No nebo naopak. Ze začátku to chce opravdu trpělivost, ale odměna je v tomto případě dostačující. Je jí více než 99% úspěšnost při odhalování spamu.

Související příspěvky

Peter Wang