SPAM onder controle?
Per dag ontvang ik zo’n 160 emails. Niet dat die allemaal nuttige informatie bevatten. Gemiddeld ongeveer vijf zijn “echte” emails, het overige is spam. Spam zijn emails—merendeels vanuit de VS en het Verre Oosten—die bedoeld zijn om allerhande artikelen en diensten aan te prijzen. Van pillen en erotische hulpmiddelen tot hypotheken en universiteitsdiploma’s.
Bij mijn internet provider xs4all hebben ze een spamfilter geïnstalleerd, maar het succes is wisselend. Belangrijkste reden is dat het toegepaste filter bestaat uit de standaard programmatuur Spamassassin waarbij xs4all een beetje aan de knoppen draait om het grootste deel van de ongewenste mails ook als ongewenst te markeren. Maar spammers zijn ook niet gek en zij hebben al lang voordat ze hun bulk emails versturen een testrun met diezelfde software gedraaid om te kijken hoe ze de vangnetten kunnen omzeilen. Praktisch resultaat is, dat slechts maximaal de helft van mijn ongewenste email daadwerkelijk als spam gemarkeerd werd.
Binnenkort ga ik weer naar Kazachstan en daar is spam letterlijk een centenkwestie. 160 headers van mails per dag binnenhalen en verwijderen kost nogal wat tijd over een trage internet verbinding. Daarom heb ik liever dat de grof-filtering zodanig werkt dat ik maar eens in de week even hoef te kijken of er zich tussen de spam per ongeluk nog een regulier bericht bevindt. Iets dergelijks is met de xs4all spamfiltering niet haalbaar.
De afgelopen dagen heb ik daarom mijn hele email afhandeling bij xs4all weggehaald en via mijn server in de VS laten lopen. Daar ben ik niet afhankelijk van wat de techneuten van xs4all toevallig als drempelwaarde voor de spamdetectie instellen. Door mijn email afhandeling zelf te doen kan ik precies instellen welke emails wel, en welke niet doorgelaten moeten worden. Bovendien kan ik nu gebruik maken van het zogenaamde Bayesiaanse filter in de Spamassassin software.
Naast de standaard filters die werken met vaste drempelwaarden op basis van voorkomende woorden, IP adres van de afzender en dergelijke heeft Spamassassin namelijk een Bayesiaans filter waarmee het mogelijk is de filtering zelflerend te maken. De werking is vrij simpel. Je sorteert de inkomende emails in twee stapels. Een stapels met gewenste, en een stapel met ongewenste berichten. Vervolgens laat je het leerprogramma van Spamassassin hierop een paar minuten stampen. Het programma zoekt kenmerken in de emails waaraan te herkennen valt of een email gewenst is of niet. Dit kunnen kenmerken in de tekst zijn, de afzender, headers die wel, of juist niet voorkomen etc. Omdat xs4all een filter heeft dat voor alle duizenden klanten geschikt moet zijn kunnen ze niet van een dergelijk zelflerend filter gebruik maken. Als het filter bijvoorbeeld zou leren dat 99% van alle emails in de Chinese taal spam is, dan zou dat erg vervelend zijn voor de Chinees sprekende xs4all klanten die veel met hun moederland emailen. Al hun email zou plotseling als spam gemarkeerd worden. Voor mij geldt een dergelijke beperking niet. Het filter heeft nu een dikke week kunnen leren van de voorbeeld emails die ik heb verzameld. De score is nu dat er gemiddeld per etmaal nog zo’n 3 spamberichten in mijn gewone emailbox doorsijpelen. Heel af en toe wordt er nog een normaal bericht als spam gemarkeerd, maar dat was voor het laatst al weer een paar dagen geleden.
Mijn SPAM probleem lijkt dus onder controle te zijn.