spam spam spam spam spam
Het is dus een probleem aan het worden, een dik probleem. Waar je vroeger gewoon bayes kon inzetten, en deze goed en voldoende trainen, komt het nu wel heel moeilijk om spam goed te filteren. Even dacht ik (en even werkte het), dat dspam de heilige graal was. Op “gewone” spam scoort deze vrij goed, maar bvb image spam is hier niet mee te detecteren en/of op te lossen.
De laatste twee weken hebben we veel nieuwe spam de kop zien opsteken. Eerst en vooral was er de Ascii-art spam. Op het eerste moment toverde het een glimlach op mijn aangezicht (geef toe, het is goed gevonden), maar uiteindelijk was het een pest. Al bij al werd deze vorm vrij snel opgepikt door de scanners.
Toen kwam er de image spam. De eerste werden opgevangen, maar de mails werden correcter opgesteld, de bijhorende teksten langer, en de scanner begon te twijfelen (BAYES_50 all over the place). Even heb ik gekeken naar Ocr-technieken, maar niet alleen zijn deze extreem processorintensief, en zou ik een deel van de spam-scanning infrastructuur moeten ombouwen, dan nog blijkt het niet efficient te zijn. Verschillende images kan ie perfect scannen, maar uit mijn tests is gebleken dat de laatste images (kleurvlakken, voldoende strategische noise, letters die dooreen lopen, niet op een lijn, …) totaal niet te OCR-en zijn (als je al 2 opeenvolgende letters eruit krijgt is het veel). De laatste development versie van een ocr-scan-techniek voor spamdetectie zou nu gaan werken met detectie van bepaalde vectoren in de image, zodat niet alleen de tekst die ge-ocr’d werd, maar ook de stijl van de image bijgehouden wordt (ik neem aan dat dit bvb de randen van de kleurvlakken zijn, of de plaatsen waar kleurovergangen zitten), en deze vergeleken wordt. Er wordt dus niet alleen meer een “bayes-db” bijgehouden, maar ook een “vector”-db voor de images. Ik weet niet hoe goed dit gaat werken, maar sta er wantrouwig tegenover. Verder is dit dus een onstabiele versie (beta is enkel goed en hip bij designs en ideeën, niet bij mission-critical software).
Vandaag kreeg ik een spambericht. From, To, allemaal leek het legitiem, het onderwerp was een gewone nederlandstalige zin. Het was “klassieke” stock-spam, maar nu ingesloten tussen perfecte nederlandse tekst, geschreven. Bayes gaf (logisch, het was gewone nederlandstalige tekst, die normaal enkel in ham voorkomt) score 0. We vertrokken dus negatief, en de andere zaken die gedecteerd werden (stijlfouten in de mime, …) kregen de score bijlange niet hoog genoeg om deze eruit te filteren. Wat nu? Extra filters zetten op “trade”, “symbol” en dergelijke meer, en zo de score omhoog duwen? Echter, we hebben een klant die als job beursanalyse doet, en dus niet gelukkig gaat zijn met dergelijke ingrepen.
Ik ken enkele mensen die ongeveer dezelfde job hebben als mezelf, of over dezelfde infrastructuur waken, vrij goed. Als de gesprekken de laatste tijd technisch worden gaat het over spam, spam en nog eens spam. De klachten gaan over het traag zijn van spamassassin, tot slechte scanning, tot black-boxes aankopen die het werk voor jou doen…
Ah, even nog ter info: op een van onze mailexchanges is 3.2% van alle aangeleverde mail “aanvaardbaar” volgens de regels (niet geblocked door blacklists, niet geblocked door virusfilters, niet geblocked door spamscanner…). En een wilde gok zegt dat van die mail die dus doorgelaten wordt, zeker nog 50% spam is. Zucht.
December 14th, 2006 at 01:22
SPAM!
volgens ik van een vriend gehoord heb die in de branche van netwerk security en oa ook anti-spam ( die genaamde black-boxes ) werkt hebben ook zij verschrikkelijk problemen met die image spam, dus het einde van de spam-gevechten is helaas nog lang niet in zicht
December 26th, 2006 at 03:47
[...] Posted by Frank Louwers Tue, 26 Dec 2006 13:47:45 GMT De bergen spam die we dagelijks tegenhouden, is enorm. Op sommige van onze mailservers blokkeren we tot 95% van alle mail die binnenkomt. Toch blijft er een (te) grote hoeveelheid rommel zijn weg vinden naar de mailboxen van onze klanten. Zowel collega Bernard als ik schreven er vroeger al over. [...]