Spam @ tweakblogs nl

Door crisp op zaterdag 21 november 2009 01:47 - Reacties (40)
Categorie: Tweakblogs, Views: 7.885

De Tweakblogs lijken de laatste tijd steeds meer in het vizier te liggen van spammers. Van de week heb ik al meer dan 300 spamreacties op (veelal oudere) blogposts getrashed, en vandaag heb ik alweer 60 anonieme spamreacties kunnen trashen. Tijd voor actie dus!

Blijkbaar is onze captcha geen hindernis meer voor spammers, of ze betalen echte mensen om hun spam handmatig te posten. In ieder geval heb ik er weinig vertrouwen in dat het overstappen naar een ander captcha-systeem, zoals bijvoorbeeld reCaptcha, het spamprobleem voor eens en voor altijd oplost.

Wat wel redelijk effectief is, en ook gebruikt wordt tegen email-spam, is content-based filtering. Spam is voor mensen redelijk eenvoudig te herkennen op basis van de inhoud van het bericht, en in principe is het ook voor computers te herkennen: spam heeft namelijk bepaalde karakteristieken die afwijken van 'gewone' berichten. Combinaties van gebruikte woorden, URL's die geadverteerd worden en gebruikte IP-adressen zijn allemaal spam-indicatoren.

Op basis van een analyse van gewone reacties en gemarkeerde spamreacties is het dus prima mogelijk om een nieuwe (anonieme) reactie op een tweakblog een spamscore te geven, of nog beter: een indicatie of de reactie spam zou kunnen zijn of niet uitgedrukt in een percentage. Je zou dan reacties met een grote mogeljkheid dat het spam zou kunnen zijn kunnen modereren voordat ze online verschijnen.

Een spamqueue dus, waarin anonieme reacties worden geplaatst indien de spamscore boven een - door de gebruiker aan te geven - waarschijnlijkheidspercentage komt. Dergelijke reacties dienen dus door de blogowner te worden beoordeeld. Het markeren als 'spam' van dergelijke reacties 'trained' vervolgens weer onze spamdetectie.

Mijn vraag: is dit een goed idee of niet?

Dit is sowieso een oproep aan alle blogowners om de reacties eens te bekijken; zeker oudere blogposts die nog 'open' staan zijn behoorlijk vatbaar voor spam.

Volgende: Clientside performance no priority for Dutch websites 01-'10 Clientside performance no priority for Dutch websites
Volgende: Having fun with IE part 5 - what item? 11-'09 Having fun with IE part 5 - what item?

Reacties


Door Tweakers user RobIII, zaterdag 21 november 2009 02:25

Mijn vraag: is dit een goed idee of niet?
Goed idee :Y)

Ik gebruik 't zelf ook op een aantal plaatsen; ik doe 't zo: Ik ontvang een mail met de inhoud van de reactie en daaronder 3 links om te klikken:

1) Goedkeuren & Publiceren
2) Afkeuren & Trashen
3) Afkeuren & Trashen & IP Ban

Dan hoef ik in mijn mail alleen nog maar de gewenste link aan te klikken en done.
Of optie 3 wenselijk is voor tweakblogs laat ik even in 't midden :+

Iets anders wat overigens érg goed werkt in mijn ervaring is een formulier (zoals ik bijv. bij Luca's en Danu's gastenboekjes gebruik) met een (met CSS) hidden textbox. Langs 't field zet ik (ook hidden) "Hier niets invullen" o.i.d. voor de minder capabele browsers.

Alle berichten die ik ontvang met een waarde in die hidden fields krijgen meteen al een IP ban en het bericht wordt getrashed. Overigens wordt dit wél gemeld met de gebruikelijke mail om zo eventuele false positives eruit te kunnen pikken. Op deze manier pik ik er al een flinke zooi spammers uit.

En ja, je loopt kans lui/ip's te bannen die legitiem zijn; in mijn geval en het publiek dat op die sites komt is dat perfectly acceptable :P

Het globale idee (reacties queue-n, reviewen en daar actie op ondernemen) is iets wat ik al jaren aanbeveel. Ikzelf ga meestal voor 100% reviewen (dus handmatig elke reactie beoordelen) bij de gastenboekjes e.d. maar voor systemen als tweakblogs kan extra intelligentie wel welkom zijn ;) Wat de uitvoering precies wordt boeit niet zo veel; spammers de kans ontnemen is altijd goed ;)

Ik heb anonieme reacties op mijn blog gewoon uit staan. Werkt ook goed :+

[Reactie gewijzigd op zaterdag 21 november 2009 02:36]


Door Tweakers user Swelson, zaterdag 21 november 2009 03:25

Gewoon javascript in het reactieformulier verwerken. Bij de Wordpressplugin wp spamfree werkt dit ook prima. Bots schijnen hier niet mee on te kunnen gaan. En idd combineren met content based filteren.

Door Tweakers user CodeCaster, zaterdag 21 november 2009 03:36

Al die captcha en onzin... waarom zou je anonieme gebruikers toestaan? Hoeveel reacties worden nu door anonieme gebruikers geplaatst, en hoeveel moeite is het voor die personen om even een accountje te registreren? Heeft tweakers.net er meteen weer een user bij.

Door Tweakers user Jism, zaterdag 21 november 2009 05:16

Mijn vraag: is dit een goed idee of niet?
Ik zou de deuren dichtzetten. Op ten duur worden er bots en scripts geschreven om op T.net anonieme reacties te dumpen. En wanneer deze bots geautomatiseerd worden op een botnet is de ellende begonnen (Installeer maar eens een kale Wordpress en wacht nadat deze aangemeld is op google).

Mijn advies voor gasten is gewoon captcha te activeren. leden met een account zouden gewoon vrijuit kunnen posten.

Door Tweakers user Omega007, zaterdag 21 november 2009 06:28

Spam reacties heb ik nog niet gezien, wel posts waarvan je zou kunnen zeggen dat het spam op zich is zoals eigen producten of wedstrijden promoten.

Ik heb ooit eens iets gedaan met: hoeveel vingers heeft een menselijke hand, daarna nooit meer spam gehad, website was ook niet groot genoeg voor maatwerk spam.

[Reactie gewijzigd op zaterdag 21 november 2009 06:31]


Door Tweakers user rickmans, zaterdag 21 november 2009 08:52

Waarom gebruik je niet een service zoals Akismet. Een captcha voorkomt geen spam, het challenged alleen de reageerder of deze een bepaalde challenge kan doorstaan. Services zoals Akismet pakkken meer beet dan alleen een captcha validatie en kijken naar de complete context van een bericht. Er zijn standaard PHP classes beschikbaar hiervoor dus je kan het snel en eenvoudig uittesten of het iets voor jullie is.

Door Tweakers user Bramos, zaterdag 21 november 2009 09:02

@Jism: heb je het stuk wel helemaal doorgelezen?

Door Tweakers user we_are_borg, zaterdag 21 november 2009 10:25

Ik zou anonieme reacties uitzetten gewoon alleen met een account een bericht kunnen plaatsen. Wil je perse anonieme reacties op de blogs verstuur dan een e-mail naar de poster en zet daarbij anonieme reacties in de que hoe je het zei.

Door Tweakers user CubicQ, zaterdag 21 november 2009 10:41

Aksimet werkt erg goed, echter vraag ik me af of het qua kosten uit kan 1-5 dollar per maand per tweakblog om hem spam-vrij te houden lijkt mij niet echt een valide businesscase. Wat misschien wel kan is dat je de Aksimet-API aanbiedt, en dat iedere tweaker die Aksimet wil gebruiken zelf een API-key aanvraagt (gratis) (maar het lijkt me nog wel wat juridisch uitzoekwerk of dat mag). Dat in combinatie met geen anonieme reacties toestaan voor blogs die geen Aksimet gebruiken lijkt me wel een oplossing.

Alternatief is zoals we_are_borg zegt gewoon anonieme reacties helemaal uitzetten. Op de tweakers.net frontpage of op het forum kan je ook niet anoniem reageren, waarom op een blog (die toch onderdeel uitmaakt van het 'tweakers.net universum' wel? Maar om die beslissing goed te kunnen maken is het wel handig om even te checken 1) Hoeveel anonieme reacties er uberhaupt komen, en 2) of die reacties veel toevoegen op dit moment.

Door Tweakers user Confusion, zaterdag 21 november 2009 10:42

Mijn vraag: is dit een goed idee of niet?
Lijkt mij prima. Een systeem als Akismet geeft goede resultaten.

Door Tweakers user Jejking, zaterdag 21 november 2009 10:45

Anoniem reageren: nee.
Zelflerende spamdetector: ja.

Door Tweakers user himlims_, zaterdag 21 november 2009 10:50

Anoniem reageren kan via de blog-admin functie aan/uit geschakeld worden, dus die keuze ligt bij de auteur.

spam reacties heb ik nog niet gezien; en ben fanatiek blog lezer. maar goed, zoals je zelf schreef gaat het veelal om 'oude' reacties.

Sommige blog-posts ervaar ik eerder als spam dan sommige reacties :X

overigens vind ik dat er veel meer schort aan de blog functie dan een aantal spam reacties. qua functionaliteit ontbreekt er nog veel imho dat zou verder uitgewerkt mogen worden :+

* himlims_ vind het eerder zaak an de auteur om deze reacties te verwijderen, en niet aan t.net

[Reactie gewijzigd op zaterdag 21 november 2009 11:01]


Door Tweakers user sebastius, zaterdag 21 november 2009 11:11

Ga je het helemaal zelf maken of baseer je je op een reeds bestaande spam-scanner zoals bv Akismet (die zit op mijn wordpress blogje en doet z'n werk prima)?

Door Tweakers user EdwinG, zaterdag 21 november 2009 11:45

Blijkbaar is onze captcha geen hindernis meer voor spammers, of ze betalen echte mensen om hun spam handmatig te posten.
Ik verwacht hier de eerste optie. In april is op het forum een topic geweest waar anti-captcha technieken werden besproken:
Hoe test je een zelfgemaakte Captcha? *

Door Tweakers user lordsnow, zaterdag 21 november 2009 12:24

Je kan ook geregistreerde gebruikers (via de FP) vragen om berichten uit de spam queue te modden. Je kan bv via een PM alert (zo'n gele balk bovenaande T.net webpagina) een gebruiker vragen of hij/zij even een mogelijk spambericht wil beoordelen. Als je dit met (veel) meerdere gebruikers doet is de spam queue zo leeg, en kan je met alle reakties vrij zeker bepalen of iets spam is of niet.

Blijkbaar zijn er 40 - 60 mogelijke spamberichten per dag. Als je elk bericht laat moderateren door 5 gebruikers dan worden 200 - 300 gebruikers per dag 'lastig gevallen' met de vraag om te modden. Ik weet niet of dit veel is vergeleken met het aantal dagelijkse geregistreerde bezoekers?

Sommige (zoals ikzelf) zou het geen punt vinden om zelf een aantal spamberichten te beoordelen - ik zit toch bijna elke dag meerdere keren voor 15 - 50 min op T.net.

Door Tweakers user crisp, zaterdag 21 november 2009 13:10

@RobIII: inderdaad kunnen we het reactieformulier ook verder 'wapenen' wat weer meer spamindicatoren oplevert en dus een betere detectie :)

@Swelson: reageren afhankelijk maken van javascript vind ik vanuit toegankelijkheidsprincipe geen goed idee...

@Jism: voor anonieme reacties gebruiken we dus al een captcha.

@rickmans: Akismet is niet gratis voor commerciele sites, en ik vind het geen goed idee om afhankelijk te zijn van een 3rd party (vertraging, ondoorzichtbaarheid van het algoritme en dus geen mogelijkheid tot 'tuning'). Daarbij willen we ook geen potentieel privacygevoelige informatie (zoals IP-adressen) doorspelen naar derden.

@we_are_borg: anonieme reacties toestaan is en blijft een keuze van de blogeigenaar. Ik sta anonieme reacties toe omdat ik met sommige posts een internationaal publiek wil kunnen aanspreken, en die zijn niet gebaat bij een verplichte registratie op Tnet. Alle anonime reacties verplicht moderated maken vind ik ook iets te ver gaan, zeker als we in staat zijn om goed te kunnen filteren. Uiteraard zou je als blogeigenaar kunnen besluiten om alles moderated te maken (minimum spamkans gewoon op 0% zetten :P), maar dan nog heeft het imo meerwaarde als wij al een indicatie kunnen geven of iets spam is of niet.
* himlims_ vind het eerder zaak an de auteur om deze reacties te verwijderen, en niet aan t.net
Je doelt hier op het feit dat ik eigenhandig deze week spam heb verwijdert? Mja; ik heb geen zin om tientallen blogeigenaars achter hun vodden aan te zitten. Spam is niet gewenst op Tnet (en dus ook niet in de tweakblogs), dus ik acteer gewoon vanuit onze algemene voorwaarden.

@sebastius: ik zit er inderdaad aan te denken zelf een Baysian spamfilter te maken; in fact, ik heb het grootste gedeelte al af :P

@EdwinG: dat topic heb ik toendertijd wel half gevolgd. Ik zal het nog eens doorlezen om te kijken of ik daar nog wat tips uit kan halen :)

@lordsnow: je idee is leuk, maar ik vraag me af of dat op dit moment wel nodig is. Het belangrijkste vind ik op dit moment dat spam niet zondermeer online kan komen. Wat blogeigenaren vervolgens met hun spamqueue doen is in eerste instantie aan hun zelf, maar als daar vervolgens ook niet naar omgekeken wordt dan zie ik meer in het 'verplicht' uitschakelen van de (anonieme) reactiemogelijkheid voor oudere blogposts (waar dit probleem het meest speelt).

Door Tweakers user s.stok, zaterdag 21 november 2009 13:35

Gewoon javascript in het reactieformulier verwerken. Bij de Wordpressplugin wp spamfree werkt dit ook prima. Bots schijnen hier niet mee on te kunnen gaan. En idd combineren met content based filteren.
Dit is minder toegankelijk, en JavaScript is voor slimme hackers ook te omzeilen ;)

@Crisp: Hoe maak je zo'n filter eigenlijk?
Ik weet er wel het een en ander van af maar om het echt zelf te maken 8)7

[Reactie gewijzigd op zaterdag 21 november 2009 13:36]


Door Tweakers user we_are_borg, zaterdag 21 november 2009 13:45

@Crisp

Als je toch anonieme reactie toe wilt staan dan is Aksimet een goede oplossing alleen het is kost wel wat. Je kan er voor kiezen om zelf wat te schrijven en alles in goede banen te lijden maar misschien is de dienst van Aksimet wel een stuk eenvoudiger ook heeft het zich al bewezen.

Door Tweakers user moto-moi, zaterdag 21 november 2009 14:51

overigens vind ik dat er veel meer schort aan de blog functie dan een aantal spam reacties. qua functionaliteit ontbreekt er nog veel imho dat zou verder uitgewerkt mogen worden :+
En staan de dingen die je mist al @ http://devtrack.tweakers.net ? :)

Door Tweakers user lordsnow, zaterdag 21 november 2009 15:12

"Het belangrijkste vind ik op dit moment dat spam niet zondermeer online kan komen."
Je kan de verdachte reakties 'offline' houden in een spamqueue totdat het gemodderated is. Je kan de blogeigenaar verzoeken te moderaten, of willekeurige bezoekers op de FP. Als een reaktie na een week, of twee, nog niet beoordeeld is (nog in de spamqueue staat) gooi je 't gewoon weg.

Door Tweakers user Alex), zaterdag 21 november 2009 15:55

SpamAssassin levert bij mij voor mail erg goede resultaten... misschien kan 't ook worden ingezet voor blogs (met wat kleine tweaks)?

Door Tweakers user Tomsworld, zaterdag 21 november 2009 17:31

En naast ReCapatcha is het belgische http://mollom.com/ misschien een idee ? Alhoewel ik vrees dat tweakblogs net naast de gratis versie zal vallen, zodat het een mindere optie kan zijn.

Door Tweakers user JoWannes, zaterdag 21 november 2009 22:20

Helaas werkt z'n felgele achtergrond niet tegen spambots... Tegen mensen wel, die beginnen er scheel van te kijken. Mss is een andere background niet zo gek? :>

Ontopic:
Ik heb eigenlijk nog geen spam gezien op Tweakblogs. Ook niet op me eigen blog, waar anoniem reageren mogelijk is... Maw, ik merk het probleem niet...?

Door Tweakers user crisp, zaterdag 21 november 2009 23:22

Helaas werkt z'n felgele achtergrond niet tegen spambots...
Kleurenblind of een slecht afgestelde monitor? Limoengroen is het ;)
Ik heb eigenlijk nog geen spam gezien op Tweakblogs.
Het probleem speelt voornamelijk bij oudere posts, dus is het enigszins logisch dat ze niet direct opvallen. Als voorbeeld: Robin.log: Nieuw record Minesweeper (ik zal ze vanavond nog niet verwijderen :P)
Daarbij heb ik recentelijk dus al een hoop verwijderd en zullen er vast ook wel bloggers zijn die hun straatje zelf wel goed in de gaten houden en zo nu en dan schoonvegen :)

Door Tweakers user we_are_borg, zondag 22 november 2009 00:29

Misschien een ander idee als de post ouder is dan xx dagen anonieme reacties uitzetten en dan alleen geregistreerde accounts. Ook is het handig als admin van je eigen blog kan zien waarop gereageerd is dat zal ook behulpzaam zijn.

Door Tweakers user crisp, zondag 22 november 2009 00:35

Misschien een ander idee als de post ouder is dan xx dagen anonieme reacties uitzetten en dan alleen geregistreerde accounts
Dat is ook zeker iets dat ik overweeg als een optie :)
Ook is het handig als admin van je eigen blog kan zien waarop gereageerd is dat zal ook behulpzaam zijn.
Die mogelijkheid is er al in de vorm van notificatie per email of DM.

Door markvt, zondag 22 november 2009 09:12

Waarom niet gewoon links in de berichten blokkeren bij niet ingelogde gebruikers. Door op ons contactformulier alle http input in de vakken niet toe te staan is de spam met 98% afgenomen.

Door Tweakers user we_are_borg, zondag 22 november 2009 10:10

Ik weet dat het een optie is dat je via DM of email een notificatie kan krijgen als er gepost is maar handig is ook anders. Als ik op de backend van de blog bezig ben wil ik dat daar graag kunnen zien via email en/of DM is toch iets anders.

Door Tweakers user crisp, zondag 22 november 2009 13:16

quote: markvt
Waarom niet gewoon links in de berichten blokkeren bij niet ingelogde gebruikers.
Da's nogal draconisch vind je niet?

@we_are_borg: wat is er dan precies mis met het reactiebeheer in de backend? Daar zie je toch ook alle reacties in chronologische volgorde?

Door Tweakers user we_are_borg, zondag 22 november 2009 14:00

@crips

Ik had het gewoon beter moeten uitleggen, als je naar http://tweakers.net/my.tnet/weblogs gaat zie je daar een overzicht wat je geschreven heb met allerlei informatie één coloum is de reacties die je op een bericht heb gekregen. Wat ik nu mis is dat als ik die pagina bekijk mij op e.e.a. manier duidelijk wordt gemaakt dat er een post is gedaan sinds mijn laatste bezoek. Misschien door middel van de numer van de reacties vet te maken zodat ik kan zien dat er een post is geweest sinds laatste bezoek.

Wat markvt zegt kan je een variant op bouwen namelijk als er een link in zit de beheerder/moderators op de hoogte te stellen om het vrij te geven, dit geldt alleen voor anonieme reacties. Maar dan kan je beter een betaalde versie van Aksimet nemen voor 50 dollar per maand is dat niet echt duur en het geld voor een x aantal sites, dan kan je misschien nog ergens anders er gebruik van maken.

Door mark, zondag 22 november 2009 16:41

Crisp, je kan idd het wiel opnieuw uitvinden als je dat leuk vindt. Je kan ook een service gebruiken als http://akismet.com/ of http://defensio.com/ of http://antispam.typepad.com/ en dan heb je ook nog van die ip lijsten van spammers die je al gelijk via de dns oid kan blacklisten, Met alleen dat blokkeer je al het grootste gedeelte van spam.

Ik denk dat tweakers toch alles graag zelf onder controle heeft dus zou ik gaan voor ip blicklists. Het beste zou zijn als je de blacklists elke dag zou kunnen syncen met bijvoorbeeld de askimet blacklists.

Op mijn blog gebruik ik askimet en daar komt echt zelden 1 spam berichtje door, maar ik weet niet of dat voor grootverbruikers als tweakers gratis mag.. mogelijk moet er dan wel betaald worden? Overigens voor de captcha die hierboven staat tijdens het typen van dit bericht. met askimet hoef ik niet eens meer een captcha te hebben en nagenoeg geen spam :) ik zie alleen maar voordelen.

Door mark, zondag 22 november 2009 17:04

Oh, zo heet dat dus: DNSBL of wel DNS BLacklist

zoals: http://www.spamhaus.org/
meer: http://en.wikipedia.org/wiki/Comparison_of_DNS_blacklists

Door Tweakers user mithras, zondag 22 november 2009 17:07

Ik prefereer ook de css methode boven een Bayesian filtering. Vooral omdat het geen enkele extra input van gebruikers nodig heeft. Met een captcha val je je gebruikers lastig, met een queue je auteurs. Het is nog steeds niet optimaal dus. Daarom dus liever een hidden veld maken.

Over het hoe & wat heb ik een tijdje geleden ook geblogged: Avoid spam messages without additional user input :)

Door Tweakers user crisp, zondag 22 november 2009 20:20

@mithras: ik heb op mijn eigen blog spam gehad wat 100% zeker weten niet van bots afkomstig was, maar wellicht kan ik inderdaad beter eerst eens kijken of ik de huidige spamvloed met de CSS-truuk even kan indammen (dat, en vragen of vooral robin z'n oudere blogposts dicht wil gooien voor commentaar aangezien de meeste spam daarop gericht lijkt te zijn :P)

@mark e.o.: ik heb in een eerdere reactie al een aantal redenen gegeven waarom we liever geen gebruik maken van een third party service als Akismet (buiten het feit dat het voor commerciele sites geld kost).

Door mark, zondag 22 november 2009 20:58

Crisp, daarom dan ook mijn extra info over de DNS Blacklists :)

Door Tweakers user crisp, maandag 23 november 2009 00:41

@mark, blacklist checking is iets dat wij al hier en daar toepassen en zeker hier ook een rol bij kan spelen. Net als het opnemen van een dmv CSS verborgen veld is het een extra pointer of iets spam zou kunnen zijn of niet.

Ik ben op dit moment echter nog niet meteen uit op een 'perfect' systeem; als blijkt dat een kleine maatregel nu al voldoende is om de stroom in te dammen dan ben ik al tevreden en kunnen we hier later - mocht het noodzakelijk worden - wel weer naar kijken. Ik heb al eea aan code op de plank liggen, maar implementatie daarvan en het bouwen van de admin interface eromheen kost tijd, tijd die ik ook aan andere dingen kan besteden :)

Door Tweakers user s.stok, maandag 23 november 2009 11:21

Daarom dus liever een hidden veld maken.
Die zijn ook heel makkelijk te omzeilen ;)

Door Tweakers user Wes, woensdag 25 november 2009 14:22

In een deel van de reacties lees ik een beetje het gevoel "het is mijn blog, wat zit jij in mijn reacties te modderen" terug. Alhoewel me dat wat overdreven lijkt (je maakt immers gebruik van een dienst onder voorbehoud van de a.v.) begrijp ik op zich wel waar het vandaan komt, je blog is toch een beetje je eigen kindje. ;) Ik denk daarom dat welke maatregelen er ook getroffen worden, het zinnig is om die configureerbaar te maken voor de auteurs. Eventueel met een bepaalde limiet zodat een abandoned blog geen verzamelplaats voor spam wordt, o.i.d.

Als zoiets als een hidden field al erg effectief is lijkt me dat min of meer een inkoppertje, net zoals (instelbaar) het automatisch in de modqueue gooien van anonieme reacties met een URL er in. Als er simpele maatregelen zijn die erg effectief zijn (95%+) lijken me die op dit moment erg aan te bevelen. En zoals je zelf ook al zegt, mocht het later alsnog een probleem zijn dan kun je dan je spaarzame tijd er alsnog in steken. :)

Door Tweakers user crisp, woensdag 25 november 2009 14:49

@Wezz6400: ik geloof dat ik in mijn blogpost zelf toch al duidelijk heb aangegeven dat het naar mijn mening ook configureerbaar zou moeten zijn? :)

Door Tweakers user Mielemann88-DOS, zondag 20 december 2009 23:15

Ajoh crisp, ze zullen contend based filtering toch omzeilen, het is niet zo moeilijk omdat te doen.

Reageren is niet meer mogelijk