Filtermethoden für Spam
(02.08.2005) zurück
Spam-Filtertechniken lassen sich grundsätzlich unterscheiden nach solchen, die sich auf Herkunft und Transportweg der Nachrichten konzentrieren, und solchen, die die E-Mails selbst nach formalen und inhaltlichen Kriterien beurteilen. Die erstgenannten Methoden widmen sich vor allem den so genannten Open Mail Relays. Das sind E-Mail-Server, deren Konfiguration es erlaubt, Nachrichten an User weiterzuleiten, die nicht im eigenen Adressverzeichnis hinterlegt sind. Spammer ermitteln solche Relaisstationen und versenden ihre „Ware“ darüber.

Um diesen Weg zu versperren, gibt es zwei Möglichkeiten: Administratoren konfigurieren ihre Systeme so, dass Sendungen von bekannten Open Mail Relays grundsätzlich blockiert werden. Oder sie stützen sich auf so genannte „Black Lists“ mit von Spammern genutzten IP-Adressen und Domänennamen. Ankommende Nachrichten werden gegen die Einträge geprüft und bei Übereinstimmung aussortiert. Die Listen kann ein Unternehmen selbst anlegen oder aus dem Internet beziehen. Damit nicht irrtümlich „gute“ Nachrichten unter den Tisch fallen (False Positives), sollte man zusätzlich so genannte „White Lists“ aufsetzen mit Domain- und IP-Angaben von Organisationen, die als vertrauenswürdig gelten.

Lesen Sie dazu auch unseren Fachartikel "Wie ihr Newsletter erfolgreich ankommt" und sensationelle Öffnungs- und Klickraten erreicht bzw. alles Wissenswere über erfolgreiche Newsletter!


Immer aktuell halten
Ob im Internet veröffentlicht oder im Unternehmen erstellt - solche Listen müssen kontinuierlich aktualisiert werden und Änderungen umgehend in die Systemkonfiguration einfließen. Zudem erfassen die Listen bei weitem nicht alle Spam-verbreitenden Server. Das System lebt in erster Linie vom Mitmachen der Listenverfasser, Systemadministratoren und nicht zuletzt der Spam-Opfer selbst, denn sie müssen die unerwünschten Absender erst einmal melden.

Mit anderen Worten: Das Listen-basierte Filtern ist mit einem hohen Fehlerpotenzial behaftet. Das fängt damit an, dass falsch konfigurierte, aber „gutartige“ Server ebenfalls in den Ausschlusslisten als Spam-Transporter verzeichnet sein können.

Zudem haben Spammer Wege gefunden, die Listen zu umgehen. Sie nutzen ständig wechselnde Domänennamen und IP-Adressen und spezielle Programme für den Versand von Bulk-E-Mails, mit denen man beliebige Absender-Adressen auf Open Mail Relays konfigurieren kann (Spoofing). Deshalb empfiehlt es sich, die Methode eher restriktiv anzuwenden. Zwar kann der empfangende Mailserver auch eine Nachricht an den Absender schicken mit der Bitte um Identifizierung. Bleibt dann die Bestätigung aus, werden die vorliegende und alle weiteren Nachrichten unterdrückt, die von dieser Domäne oder Adresse eintreffen.

Bei einer positiven Reaktion hingegen wandert der Absender auf die weiße Liste. Allerdings läuft der Ansatz schon ins Leere, wenn der Absender die Bestätigung einfach vergisst. Bei einem automatisch verschickten Newsletter ist das auch so, denn da kann der Sender-Server mit einer Identifikationsbestätigung gewöhnlich nichts anfangen.

Kurz: Das „False Positive“-Risiko bleibt bei den genannten Methoden grundsätzlich bestehen. Sie alleine bieten daher keinen umfassenden Schutz gegen Spam.

Testen Sie ihre E-Mail-Publikationen auf www.emarsys.at.

Form weist auf Inhalt
Weiter gehen Ansätze, die die E-Mails anhand formaler Merkmale prüfen. Dazu gehört das Checksummen-Verfahren. Eingehende E-Mails im Spam-Verdacht erhalten jeweils Checksummen, die in Internet-Datenbanken abgelegt werden. Andere Server können ihren Posteingang damit vergleichen und die betreffenden Spam-Mails erkennen. Dahinter steht die Annahme, dass Spam-Mails als Kopien eines Textes in der Regel leicht zuzuordnen sind. Der Spammer braucht allerdings nur eine neue E-Mail mit identischem Text zu generieren, um das Checksummen-Verfahren auszuhebeln. Oder die Nachrichten als personalisierte Einzel-Mails verschicken. Zudem ist der Ansatz auf die Hilfe möglichst vieler Teilnehmer angewiesen, die verdächtige E-Mails an die Datenbanken melden.

Andere Methoden konzentrieren sich auf die Dekodierung von HTML-Tags in E-Mails oder erstellen mit Hilfe von Perl- oder Sieve-Skripten ein Spam-Fangnetz. Diese Verfahren sind aber relativ aufwendig.

Wissen, was drin steht
Die rudimentärste Ausprägung der Inhalt-basierten Spam-Erkennung sind Wortlisten mit Signalbegriffen, die mit eingehenden E-Mails abgeglichen werden. Jedoch schafft schon die kleinste Abweichung von der Liste Probleme, etwa orthografische Änderungen in den gesuchten Ausdrücken. Generell lässt sich mit diesem Verfahren nichts über den Kontext einzelner Begriffe aussagen. Auch wenn das Wort „Angebot“ fünf Mal vorkommt, muss es nicht zwangsläufig auf einen Spam-Text hindeuten - die E-Mail würde aber gemäß der „Giftliste“ wahrscheinlich aussortiert.

Wesentlich wirkungsvoller arbeiten die so genannten heuristischen Verfahren. Sie suchen in E-Mails nicht nur nach einzelnen Begriffen, sondern nach bestimmten Textmustern und treffen auf dieser Basis die Entscheidung, ob es sich um Spam oder Nicht-Spam handelt.

Zu den wichtigsten Vertretern dieser Gruppe zählen Naive-Bayes-Filter, Support Vector Machines und das künstliche neuronale Netz.

Der Klassiker: Naive-Bayes-Verfahren
Vor über 250 Jahren stellte der englischen Pfarrer und Mathematiker Thomas Bayes den nach ihm benannten Satz zur Berechnung bedingter Wahrscheinlichkeiten auf. Er basiert auf dem Prinzip, dass Ereignisse vorhersagbar sind, wenn bestimmte andere bereits eingetreten sind.

Enthält eine E-Mail immer wiederkehrende Begriffe, die auf Spam hindeuten, ist die Wahrscheinlichkeit hoch, dass die aktuelle Nachricht ebenfalls Spam ist. Um das festzustellen, muss ein Bayes-Klassifikator zunächst lernen, wie die Klassen Spam und Nicht-Spam definiert sind. Das geschieht mit Hilfe von Trainingsdaten. Aus deren Attributen, das sind zum Beispiel bestimmte Begriffe und Phrasen, die oft in Spam-Mails vorkommen, werden relative Häufigkeiten ermittelt und den jeweiligen Klassen zugeordnet. Die Zuordnungen sind in Datenbanken abgelegt. Treffen neue Nachrichten ein, berechnet der Klassifikator die relative Häufigkeit der Attribute und ordnet sie der Klasse zu, auf die das Muster am besten passt.

Bayes in der Praxis
In der Spam-Filterpraxis haben Bayes’sche Verfahren den Vorteil, dass der Lernvorgang im Betrieb selbstständig fortgesetzt wird. Dem steht ein grundsätzlicher Nachteil gegenüber. Einen Hinweis darauf liefert die Namensgebung. Die Methoden werden als „naiv“ bezeichnet. Dahinter steht die (naive!) Annahme, dass die Attribute der untersuchten Texte statistisch unabhängig sind. Das heißt: Liegt ein Merkmal A vor, wird die Eintrittswahrscheinlichkeit von Merkmal B nicht beeinflusst. Tauchen also Begriffe aus dem Spam-Umfeld auf, lässt das nach dieser Annahme immer eindeutig eine Aussage zur Spam-Qualität zu.

Gerade bei der Einordnung von Texten in multiple Kategorien aber ist die statistische Bewertung oft nicht genug. Es fehlt die Untersuchung dessen, was „zwischen den Zeilen“ gesagt wird und dem Text erst seine Bedeutung gibt. Worte und Wortverbindungen stehen auch bei Spam-Mails in (meistens) genau kalkulierter Beziehung zueinander. Sie sollen ja beim Empfänger eine bestimmte Reaktion auslösen.

Dieser Bereich lässt sich mit Bayes-Filtern ohne die Implementierung von Zusatzmodulen nicht abdecken. Das Verfahren ist daher recht aufwendig, arbeitet aber dank ständig verbesserter Trainingsmethoden für die Klassifikatoren mittlerweile sehr effizient.

Support VeCTO Machines: robust und schnell
Ein noch neues Klassifizierungsverfahren ist Support VeCTOr Machines (SVM). Jedes Dokument wird als Vektor abgebildet. Besteht es aus den Sätzen „Es regnet“ und „Es schneit“ - drei Einzelwörter - ist der Vektor dreidimensional.

Ob ein Dokument einer Kategorie angehört oder nicht, wird durch Vergleich des Textvektors gegen ein Bezugselement festgestellt. Das sind die Support-Vektoren. Sie entstehen durch Berechnung einer Hyperebene, die positive und negative Trainingsbeispiele für eine Textkategorie optimal trennt. Es gibt also einen Support-Vektor für Spam und einen für Nicht-Spam. Ein neuer Text wird durch seine Nähe zu den beiden Support-Vektoren klassifiziert. Mit Hilfe von Schwellwerten lässt sich bestimmen, ab welcher Nähe zu einem Support-Vektor der Text zur betreffenden Kategorie gehört.

Um die Zuordnung auch zuverlässig durchführen zu können, muss der Mail-Filter „angelernt“ werden. Vorhandene Beispieldokumente für verschiedene Kategorien werden in eine Datenbank verschoben und Klassifikatoren für die Dokumente generiert.

Danach kommt die Testanalyse mit dem erstellten Klassifikator an die Reihe. Fällt sie positiv aus, wird ein weiterer Datenbank-Job aktiviert, der alle eingehenden Dokumente anhand des Klassifikators prüft und nach den festgesetzten Regeln weiterleitet oder zurückhält.

SVM hat gegenüber Bayes- und anderen statistischen Ansätzen den Vorteil, „Overfitting“ zu verhindern, also das „Übertrainieren“ des Klassifikators. Dabei besteht die Gefahr, dass nur noch die Trainingsdokumente richtig kategorisiert werden. Support VeCTOr Machines gehört heute zu den leistungsstärksten Klassifizierungsverfahren, speziell was den Umgang mit multiplen Kategorien angeht.

Neuronales Netz erkennt Textmuster
Vektorpositionen spielen ebenfalls eine wichtige Rolle beim künstlichen neuronalen Netz (ANN = Artificial Neural Network). Der ANN-Ansatz versucht die Unterscheidungsfähigkeit des menschlichen Gehirns nachzuahmen. Dieses beurteilt Spam-Mails unter der Prämisse, dass solche Nachrichten „anders“ sind als jene, die erwünscht und wichtig sind.

Um zu erkennen, worin der Unterschied besteht, muss man nicht alle existierenden Spam-Mails sehen oder vorgelesen bekommen. Ein paar Beispiele genügen, um ähnliche Texte künftig richtig einzuschätzen. ANN führt diese Lernprozesse als Computersimulation durch. Dabei geht es um die Erkennung vom Mustern, gemäß derer jede Nachricht qualifiziert werden kann. Wie das menschliche Gehirn „lernt“ das neuronale Netzwerk daraus, was der Nutzer unter Spam beziehungsweise Nicht-Spam versteht. Um die Muster einordnen zu können, muss ANN zuerst trainiert werden. Das geschieht durch Analyse repräsentativer Beispiele für Spam- und erwünschte E-Mails. Voraussetzung ist natürlich eine möglichst genaue Definition, was beide kennzeichnen soll.

Mit Hilfe statistischer Methoden werden alle Begriffe, die für die Zuordnung zur jeweiligen Klasse relevant sind, in den Beispieltexten identifiziert. Wörter wie „Gratis“, „Günstig“, „Gewinner“ gehören eher auf die Spam-Seite, während „Geschäftsreise“, „Mitarbeitergespräch“, „Vertragsänderungen“ mehr auf erwünschte Post hindeuten.

Im nächsten Schritt ermittelt ANN bestimmte Muster und Kombinationen, in denen die Schlüsselbegriffe vorkommen, und errechnet für jede E-Mail einen Vektor. Das Ergebnis des Testvorgangs kann man sich (vereinfacht) als zweidimensionales Diagramm vorstellen, in dem als Spam klassifizierte Nachrichten (Vektoren) oberhalb, als Nicht-Spam erkannte unterhalb einer Trennlinie liegen. Der relative Abstand des Vektors zur Trennlinie bestimmt die Spam-/Nicht-Spam-Wahrscheinlichkeit der Nachricht. Neue E-Mails lassen sich dann ebenfalls auf Basis ihres Vektorwerts einer Seite zuordnen.

ANN in der Praxis
In der Praxis stimmt die Zuordnung jedoch nicht immer mit der tatsächlichen Qualität des Textes überein. Dann rutschen eigentlich unbedenkliche Nachrichten auf Basis des errechneten Vektors auf die Spam-Seite. Leistungsstarke ANN-Engines begegnen diesem Risiko durch Anpassung des Grenzwerts zwischen den beiden Gruppen.

Grundsätzlich gilt: Je weiter die „falschen“ Nachrichten von der Trennlinie entfernt sind, desto schwieriger wird die Fehlererkennung. Umgekehrt bewirkt eine Verschiebung der Trennlinie aus dem ursprünglichen Grenzwertbereich, dass E-Mails, deren Vektoren jetzt unterhalb der neuen Linie liegen, nicht mehr als Spam erkannt werden. Mit anderen Worten werden durch die Grenzwertverschiebung effektiv ein paar Spam-Mails mehr durchgelassen, dagegen weniger Nicht-Spam irrtümlich aussortiert. Das Manko haftet übrigens allen heuristischen Verfahren an, ist aber im Mail-Alltag mit Sicherheit das kleinere Übel.

Die Kombination macht’s
Für sich alleine genommen ist keines der beschriebenen Verfahren ein Allheilmittel im Kampf gegen Spam. Es liegt also nahe, die Vorteile der verschiedenen Ansätze sinnvoll zu kombinieren und somit einen maximalen Schutz gegen Spam-E-Mails zu erreichen.

Die Kombination hat den großen Vorteil, dass sie die „Spam-Empfindlichkeit“ der einzelnen Nutzer besser berücksichtigt. Marketingmitarbeiter beispielsweise sind für Werbe-E-Mails womöglich eher empfänglich als die Kollegen in der Buchhaltung. Somit sollten nach erfolgter zentraler Vorsortierung immer die Empfänger selbst als letzte Instanz entscheiden, welche Nachrichten(typen) für sie noch vertretbar sind.

Technisch lässt sich die Strategie am besten über ein Drei-Stufen-Filtersystem umsetzen. Dabei geht es um die Mail-Klassifizierung an den Knotenpunkten Gateway, Server, Desktop.

1. Stufe: Am Gateway erfolgt die Grobfilterung. Alles, was gemäß der Mail-Policy des Unternehmens anhand eindeutiger Merkmale als Spam identifiziert oder generell unerwünscht ist, wird hier geblockt. Das können bestimmte Dateitypen sein (zum Beispiel Audio-, Video-Anhänge, ausführbare Dateien) oder E-Mails bekannter Spammer auf Basis schwarzer Listen.

2. Stufe: Im nächsten Schritt geht es um die Feinfilterung. Nachrichten, die den ersten Check passiert haben, werden am Mailserver erneut auf weniger eindeutige Spam-Merkmale geprüft. Dabei kommen Prüfverfahren wie die statistischen zum Einsatz, die eine Vielzahl von Kriterien berücksichtigen und den Mails bestimmte Wertigkeiten zuordnen. Diese detaillierte Analyse der einzelnen Mails kann natürlich auch „positiv“ genutzt werden, um Nachrichten an den am besten geeigneten Adressaten weiterzuleiten. Die Idee dahinter ist simpel. Die aufwendige Technik moderner Spam-Filter dient gleichzeitig der E-Mail-Organisation im Sinne des Content-Based-Routing gemäß unternehmensspezifischer Vorgaben und Policies.

3. Stufe: Selbst wenn die beiden Filterstufen schon das Gros der Sortierarbeit übernehmen, bleiben im Schnitt 30 Prozent der eingehenden Unternehmens-E-Mails übrig, die sich nicht eindeutig klassifizieren. Deren Beurteilung liegt letztlich beim Empfänger selbst und muss ihm auch zugestanden werden.

Alles pauschal zu unterdrücken, was nicht zweifelsfrei zuzuordnen ist, ist keine sinnvolle Strategie. Primitive Spam-Filter beispielsweise, die bereits in der ersten Stufe fast 50 Prozent geschäftsrelevanter E-Mails fälschlicherweise als Spam deklarieren (so genannte False Positives), schaden einem Unternehmen mehr als sie nutzen. In diesem Sinne findet eine letzte Prüfung via Desktop statt. Der Nutzer „füttert“ dabei den Spam-Filter mit Hilfe von individuell erstellbaren, schlagwortbasierten Klassifizierungsordnern. Der Filter selbst liegt zentral auf dem Server. So landet beispielsweise jede E-Mail, die als Newsletter definiert ist, im entsprechenden Ordner. Für den einen Mitarbeiter ist das eine willkommene Informationsquelle, während der andere weiß, welcher Post er sich nicht widmen muss.

Der Autor Frank Kresse ist Vorstand und CTO der GROUP Technologies AG in Karlsruhe, die sich mit Spam-Filterung beschäftigt.


Mit freundlicher Genehmigung von Computerwelt.at


Weiterführende Fachinformationen zum Thema Newsletter, Spam, Checkliste, Viren:

Das darf in keinem Newsletter-Impressum fehlen
Bekannte Spam-Methoden um bessere Suchmaschinenrankings zu erreichen
Checkliste - Wie kommt mein Newsletter sicher an - über 50 Tipps für die Erstellung von erfolgreichen Newslettern
Jeder Vierte kauft bei Spam-Versendern
Leichter Rückgang bei Spam und Viren


Weiters gibt es ein paar interessante Begriffe aus unserem Wörterbuch / Werbe-Lexikon zum Thema Sicherheit:

Spam-Filter
Spammer
Cracker
Hacker
Virenscanner
Computervirus
Alle Meldungen zum Thema
Sicherheit/Datensicherheit
> Bei JPG kommt der Alarm zu spät

> Die digitale Signatur - Einführung

> Die sieben Security-Todsünden am Computerarbeitsplatz - Checkliste

> Digitale Signatur

> Digitale Signatur

> Ein Spürhund für geklaute Laptops

> Entwickler der Internet-Würmer

> Filtermethoden für Spam

> Firmen trauen Microsoft's Service Pack 2 nicht

> Handyviren: Reale Gefahr oder Panikmache?

> Hochkritische Sicherheitslücke in Acrobat und Adobe Reader

> Internet Explorer büßt für seine Sicherheitslücken

> Leichter Rückgang bei Spam und Viren

> Leitfaden zu rechtlichen Pflichten in Sachen IT-Sicherheit

> Mehr Sicherheit im Internet durch Websiteerstellung ohne aktive Inhalte

> Outbreak: Der tägliche Kampf gegen neue Viren

> Schutzschild für Wireless-LANs

> Security-Check für Unternehmen

> Security-Tipps: So machen Sie das WLAN „dicht“

> Sicherheit beim Online-Banking

> Sicherheitsbedenken bremsen weitere VoIP-Verbreitung

> Sicherheitslücken in Firefox geschlossen

> Skype gefährdet Unternehmensnetze

> Spammer missbrauchen Anti-Spam-Tools

> Spuren im Cyberspace

> Tipps zur sicheren Nutzung von VoIP

> Trojaner schleicht sich über JPG-Bilder auf PCs

> Virenbekämpfung aus der Ferne mit McAfee

> Welche Internet-Bedrohungen kommen auf uns zu?

> WLAN-Sicherheitsrisiko WEP

 
innovation marketing manfred eibl, A-8054 Graz, Ferdinand-Prirsch-Straße 46, administration@innovation-marketing.at, T (+43 316) 225 725-0, F (+43 316) 225 725-16

  created with ed-it.® 4.0-p2-20120123