Bayesovské filtrování

Bayesovské filtrování (anglicky Bayesian filtering) je jednou z nejefektivnějších řešení boje proti e-mailovému spamu. Spam je problém, kterému dnes čelí většina uživatelů e-mailů a počty spamových emailů se denně zvyšují. Obvykle používané techniky anti-spamových softwarů jsou statické, to znamená, že spamerům stačí tyto techniky jen prozkoumat a najít cestu jak se jim vyhnout (například změnit titul zprávy). To dalo developerům novou výzvu. Namísto dosavadních statických metod bylo potřeba přijít na anti-spamovou techniku, která by se byla schopna přizpůsobit stále se měnícím spamerským taktikám. Odpověď byla nalezena v bayesovské matematice a vznikla technika bayesovského filtrování.

Princip bayesovského filtrování

editovat

Bayesovské filtrování je proces, který používá naivní bayesovský klasifikátor k identifikaci spamového e-mailu. Základní myšlenkou je, že většina událostí je mezi sebou závislá a pravděpodobnost jevu budoucí události může být odvozena z předcházejících jevů této události. To je možné aplikovat i na spam. Pokud nějaký kus textu je nalezen ve spamu a nikoliv v hamu, lze usoudit, že e-mail bude pravděpodobně spam.

Přizpůsobení bayesovských filtrů

editovat

Je důležité si povšimnout, že analýza potřebných e-mailů provedená bayesovským filtrem v určitém prostředí je na toto prostředí přizpůsobena. Například finanční ústavy mohou často používat slovo „hypotéka“ a při použití obecných pravidel by e-maily s tímto slovem byly označeny jako spam. Bayesovský filtr naučený konkrétně pro toto prostředí si všimne častého používání tohoto slova v potřebných zprávách a proto dosáhne lepších výsledků. Bayesovské filtrování je chytrý přístup ke třídění elektronické pošty, protože prozkoumá všechny aspekty zprávy, na rozdíl od pouhé kontroly obsahu zprávy. Například ne každý e-mail obsahující slova „zdarma“ nebo „peníze“ je spam. Bayesovská metoda by tyto slova sice do klasifikace zahrnula, ale podle věrohodného odesílatele by e-mail jako spam neklasifikovala.

Nevýhody bayesovských filtrů

editovat

Jednou z nevýhod je učení softwaru. Po instalaci je nutná perioda dvou týdnů, kdy se bayesovský filtr trénuje na zvyklostech prostředí, ve kterém se nachází. Po dokončení této fáze je software schopen rozlišit spam od ham zpráv a správně je klasifikovat, přitom je schopen se přizpůsobit novým spamovým technikám, které jsou mu představeny. Zatímco běžné filtry podle klíčových slov se budou chovat lépe v průběhu prvního měsíce, bayesovský filtr je s největší pravděpodobností již v dalším měsíci bude předčit.

Anti-spamové softwary s velmi základními bayesovskými schopnostmi, jako například spamový filtr Microsoft Outlook, nevytváří data přizpůsobená určitým prostředím, ale vydává standardní soubory s hamovými daty. Ačkoli tato metoda nevyžaduje učení aplikace, má dvě velké nevýhody: Soubor s hamovými daty je veřejně přístupný a může tedy být hacknutý profesionálními spamery. Takovýto soubor hamových dat je příliš obecný a nemůže tedy být tak účinný jako v případě, kdy probíhá učení pro určité prostředí.

Pro efektivní využití je nutné také provádět update posledních spamových technik pomocí souboru spamových dat. Díky tomu se lze ujistit, že bayesovský filtr zná nejnovější taktiky spamerů a dosáhne tak vysoké úspěšnosti detekce spamu. Jako příklad spamové techniky je možné uvést třeba přepis slova „zdarma“ na slovo „z-d-a-r-m-a“, které by u typického anti-spam filtru muselo být evidováno jako další textový řetězec.

Bayesovský filtr a vícejazyčnost

editovat

Bayesovská metoda je vícejazyčná, na rozdíl od většiny slov klíčových seznamů, které se dají použít pouze pro jeden jazyk. Bayesovský filtr také bere v potaz odlišné způsoby mluvy určitých jazyků a nářečí, to mu umožňuje lepší klasifikaci spamu. Bayesovský filtr je těžké obejít, na rozdíl od filtrování podle klíčových slov. Pokročilý spammer, který se chce dostat přes bayesovský filtr, musí použít méně slov, které by indikovaly zprávu jako spam, nebo použít více slov typického hamu. Druhý způsob, kdy se spammer pokouší najít požadovaná slova, je však nemožný, pokud chce spamovat větší skupinu různých lidí, protože hledat tato slova pro každou osobu by bylo velice časově náročné.

Externí odkazy

editovat