Ci z nas nękani przez atak dziesiątek, jeśli nie setki niechcianych e-maili witających nas, gdy otwieramy nasze konta e-mailowe, mają nadzieję na odpoczynek w postaci filtrów spamowych Bayesa. Od lat spamerzy są w stanie pozostać o krok przed blokerami spamu tylko dlatego, że są kreatywni i mają zdolność dostosowywania się i unikania blokowania za każdym razem, gdy opracowywany jest nowy filtr antyspamowy. W rezultacie twórcy oprogramowania antyspamowego byli pewni, że mają przed sobą zadanie; opracować oprogramowanie, które może nieustannie uczyć się od nowych i kreatywnych technik spamerów, dzięki czemu nigdy nie pozostanie w tyle w grze blokującej spam.
IAML5.12: Naive Bayes do wykrywania spamu
Dopiero niedawno opracowano takie rozwiązanie w postaci filtrów Bayesa. Bayesowska metoda statystyczna, na której oparte są filtry, działa na zasadzie dzielenia wiadomości e-mail na kategorie. Oprogramowanie rejestruje wiadomości e-mail, które wybierasz i które usuwasz. Przez cały czas monitoruje charakterystykę zarówno wiadomości e-mail, które otworzyłeś, jak i tych, których nie zrobiłeś. Z biegiem czasu uczy się na podstawie tych danych zbiorczych. Rozpozna pewne słowa, które pojawiają się często w tych e-mailach, które ciągle ignorujesz. Oprogramowanie będzie wtedy bardziej podatne na kategoryzowanie e-maili z wysoką częstotliwością tego konkretnego słowa jako spamu.
Ale jeśli nie obawiasz się, że otwarcie kilku e-maili od cioci Sue nagle spowoduje, że wszystkie e-maile z napisem :Sue: zostaną skategoryzowane jako spam, powinieneś wiedzieć, że filtry Bayesa działają w agregacie. Oznacza to, że o ile decyzje o tym, które e-maile otwierać, a które nie, będą miały wpływ na algorytm, tak samo będzie z działaniami tysięcy, jeśli nie dziesiątek tysięcy innych użytkowników. Rozprzestrzenia się na tak szerokim gronie użytkowników i agregując dane przez taki czas, istnieje tylko minimalne niebezpieczeństwo fałszywego oznaczania. Zamiast tego dostajesz bardzo dokładne długoterminowe narzędzie do blokowania spamu. Niestety, te same cechy, które uniemożliwiają fałszywe blokowanie, również ograniczają bayesowski filtr antyspamowy przed blokowaniem przedniej fali nowej techniki spamowania. Tak więc często efektem jest kilka dni lub tygodni nowej techniki spamowania skradającego się przez pęknięcia, dopóki nie zostanie opracowany algorytm.
Z tego samego powodu jedną z największych zalet filtrów spamowych Bayesa jest to, że można je indywidualizować. Jeśli otrzymasz nieproporcjonalną ilość spamu w oparciu o twoje zainteresowania online, możesz faktycznie zmodyfikować Bayesowskie narzędzie do blokowania spamu, aby leczyć określone słowa, które są szczególnie spamerskie. Oznacza to, że podczas niepodpisywania filtr Bayesa będzie ostrożny, aby uniknąć nadmiernego blokowania, gdy zostanie poproszony przez użytkownika, oprogramowanie może zablokować każdy konkretny rodzaj spamu..
Dopiero niedawno technologia stała się dostępna na rynku. Obecnie jest oferowana w ograniczonej liczbie programów antyspamowych, które można kupić i które skanują każdy kawałek wiadomości przed jej otwarciem. Inną formą jest faktyczne osadzenie w samym oprogramowaniu serwera pocztowego, co oznacza, że wiadomości e-mail klienta są już skanowane i klasyfikowane, zanim jeszcze otworzy on swojego dostawcę poczty e-mail