Archive for November, 2006

krak!

Thursday, November 30th, 2006

Ik slaag er toch altijd in om een moeilijke periode nog wat moeilijker te maken. Aangezien we met Openminds druk in een verhuis zitten van materiaal, dat er nog vrij veel werk ligt te wachten, dat ik nog enkele boeken moet lezen en testopstellingen maken en dat ik nog genoeg slaap in te halen heb, is het “vrij druk” te noemen.

En toch… alles gaat maar half zo snel, en het schema ligt overhoop, want ik heb mijn voet verstuikt (vrij ernstig) en zit, na een blitsbezoek aan het UZ-Gent, met mijn rechterachterpoot in het gips. Godzijdank dat mijn werk vooral zittend is, en bedankt aan Baas A om me rond te voeren, maar nu gaan we wel enkele zaken moeten wijzigen.

Stap 1 is me straks even uit de UZ-Gent broek wurmen, en iets deftigs aandoen voor mijn afspraak van deze namiddag. En me nog scheren.

spam spam spam spam spam

Friday, November 24th, 2006

Het is dus een probleem aan het worden, een dik probleem. Waar je vroeger gewoon bayes kon inzetten, en deze goed en voldoende trainen, komt het nu wel heel moeilijk om spam goed te filteren. Even dacht ik (en even werkte het), dat dspam de heilige graal was. Op “gewone” spam scoort deze vrij goed, maar bvb image spam is hier niet mee te detecteren en/of op te lossen.

De laatste twee weken hebben we veel nieuwe spam de kop zien opsteken. Eerst en vooral was er de Ascii-art spam. Op het eerste moment toverde het een glimlach op mijn aangezicht (geef toe, het is goed gevonden), maar uiteindelijk was het een pest. Al bij al werd deze vorm vrij snel opgepikt door de scanners.

Toen kwam er de image spam. De eerste werden opgevangen, maar de mails werden correcter opgesteld, de bijhorende teksten langer, en de scanner begon te twijfelen (BAYES_50 all over the place). Even heb ik gekeken naar Ocr-technieken, maar niet alleen zijn deze extreem processorintensief, en zou ik een deel van de spam-scanning infrastructuur moeten ombouwen, dan nog blijkt het niet efficient te zijn. Verschillende images kan ie perfect scannen, maar uit mijn tests is gebleken dat de laatste images (kleurvlakken, voldoende strategische noise, letters die dooreen lopen, niet op een lijn, …) totaal niet te OCR-en zijn (als je al 2 opeenvolgende letters eruit krijgt is het veel). De laatste development versie van een ocr-scan-techniek voor spamdetectie zou nu gaan werken met detectie van bepaalde vectoren in de image, zodat niet alleen de tekst die ge-ocr’d werd, maar ook de stijl van de image bijgehouden wordt (ik neem aan dat dit bvb de randen van de kleurvlakken zijn, of de plaatsen waar kleurovergangen zitten), en deze vergeleken wordt. Er wordt dus niet alleen meer een “bayes-db” bijgehouden, maar ook een “vector”-db voor de images. Ik weet niet hoe goed dit gaat werken, maar sta er wantrouwig tegenover. Verder is dit dus een onstabiele versie (beta is enkel goed en hip bij designs en ideeën, niet bij mission-critical software).

Vandaag kreeg ik een spambericht. From, To, allemaal leek het legitiem, het onderwerp was een gewone nederlandstalige zin. Het was “klassieke” stock-spam, maar nu ingesloten tussen perfecte nederlandse tekst, geschreven. Bayes gaf (logisch, het was gewone nederlandstalige tekst, die normaal enkel in ham voorkomt) score 0. We vertrokken dus negatief, en de andere zaken die gedecteerd werden (stijlfouten in de mime, …) kregen de score bijlange niet hoog genoeg om deze eruit te filteren. Wat nu? Extra filters zetten op “trade”, “symbol” en dergelijke meer, en zo de score omhoog duwen? Echter, we hebben een klant die als job beursanalyse doet, en dus niet gelukkig gaat zijn met dergelijke ingrepen.

Ik ken enkele mensen die ongeveer dezelfde job hebben als mezelf, of over dezelfde infrastructuur waken, vrij goed. Als de gesprekken de laatste tijd technisch worden gaat het over spam, spam en nog eens spam. De klachten gaan over het traag zijn van spamassassin, tot slechte scanning, tot black-boxes aankopen die het werk voor jou doen…

Ah, even nog ter info: op een van onze mailexchanges is 3.2% van alle aangeleverde mail “aanvaardbaar” volgens de regels (niet geblocked door blacklists, niet geblocked door virusfilters, niet geblocked door spamscanner…). En een wilde gok zegt dat van die mail die dus doorgelaten wordt, zeker nog 50% spam is. Zucht.

werk

Tuesday, November 21st, 2006

Netlash zoekt twee webdevelopers! Kan je php/html/css/… neem dan een kijkje op de site van Netlash!

puur genot

Saturday, November 18th, 2006

Weet je wat echt leuk is? Voor de gaskachel gaan staan, maar met je rug naar de kachel zelf (je kijkt dus weg van de kachel). Dan neem je je T-shirt langs achter onderaan vast en je trekt die wat van je weg, zodat de warme lucht tussen je T-shirt en je rug naar boven moet “lopen”. Als je rug echt koud is, kan je de warmte omhoog voelen kruipen het eerste moment. Kippevel!

Iemand anders winter-tips?

humor met een woordje uitleg

Wednesday, November 15th, 2006

Op deze site worden enkele quotes uit The Simpsons uit de doeken gedaan. Briljant hoever de makers en schrijvers gaan om moppen te vinden, en er dubbele bodems in te leggen. Jammer genoeg ken ik niet genoeg van USA-cultuur en dergelijke meer om die allemaal zelf te ontdekken tijdens het bekijken van de afleveringen…