17 september 2007

Ühe mehe võitlus kommentaarispämmiga

Elver Loho tehtud intervjuu augusti Arvutimaailmast:

David-Alexander du Verle on populaarse kommentaarispämmi vastase Wordpressi plugina Spam Karma 2 autor. Hetkel õpib ta Pariisis Pierre & Marie Curie nimelises ülikoolis tehisintellekti erialal.

Mis on kommentaarispämm? Kas keegi, kes jätab vaid ühe kommertskommentaari, on spämmer?
Minu jaoks on kõik kommentaarid, mille ainuke eesmärk on oma toote või isegi vaid oma veebilehe reklaamimine, spämm. Kuid erinevate inimeste jaoks võib see valulävi olla erinev.

Miks töötad tasuta kommentaarispämmi vastase Wordpressi plugina kallal? Kas midagi paremat pole teha?
Paljugi paremat on teha. Hiljuti lõpetasin töö mitme hobiprojekti kallal, et keskenduda õpingutele. Spam Karma 2 on üks väheseid projekte, mille kallal edasi töötan, sest kahjuks pole talle veel alternatiive, mis mind täielikult rahuldaks. Pealegi kasutavad SK2 oma blogide kaitsmiseks tuhanded inimesed.
Pluginat motiveeris mind arendama see närvesööv hunnik spämmi minu isiklikul blogil, millest pidin end iga päev läbi närima. Samuti ajas mind vihale see, et suur osa juba eksisteerivaid pluginaid kasutas samu vanu ja kasutuid tehnikaid, mis lihtsalt ei tööta, ilma et oleks proovinudki neid paremaks teha.
Spam Karma 2 jookseb Wordpressi peal, kuna tol hetkel kasutasin ma oma blogimootorina Wordpressi. Varem oli see suurepärane avatud lähtekoodiga platvorm tõeliselt uskumatute võimalustega. Kuigi tänapäevane Wordpressi projekti juhtimine mulle ei meeldi, sobib see endiselt minu isiklikuks kasutamiseks ja SK2 pole mul plaanis mujale portida. SK3 saab aga kindlasti olema blogimootorist sõltumatu.

Kas spämmiprobleemiga ei tegele juba "päris eksperdid"? Doktorikraadiga ja puha?
Olen lugenud tohutul hulgal teadustöid, artikleid, blogipostitusi tüüpilistelt "ekspertidelt" ja "spetsialistidelt", ka neilt, kes töötavad probleemi kallal tuntud suurfirmades, ja enamasti jätavad säärased kirjatükid mind külmaks. Reeglina neil kas puuduvad teemakohased tehnilised teadmised või praktilised kogemused.
Mõni neist omab küll vajalikke matemaatilisi teadmisi, kuid ei näe oma lähenemise ilmselgeid praktilisi probleeme. Enamikul pole aga õrna aimugi, millest räägivad. Nad lihtsalt kordavad sedasama vana jama, mis pole juba aastaid töötanud.
Arvutiteaduses on palju erinevaid erialasid, kõigis väga erinevate oskustega inimesed. Põhiprobleem tuleneb sellest, et spämmiga võitlemine on midagi enamat kui vaid arvutiteaduslik probleem – see eeldab teadmisi sotsioloogiast, psühholoogiast ja paljudest teistest "loogiatest", kuigi lõplik lahendus vajab kõige enam just teadmisi matemaatikast.

Kui hakkasid SK2 toetuseks annetusi koguma, õnnestus sul päris kiiresti kokku saada lausa 800 USD. Kui tähtsad on säärased annetused edasiseks arendustööks?
Edasiseks arendustööks? Ei oska öelda. Aga edasiseks kvaliteetse džinni joomiseks ja teisteks pahedeks: absoluutselt kriitiline.
Ausalt öeldes on raske hinnata. Mul polnud algselt plaanis SK kasutajatelt annetusi küsida. Arenduse eesmärgiks pole kunagi olnud raha teenimine ja kui ma poleks sentigi saanud, töötaksin ma endiselt selle kallal edasi.
Teisest küljest aga alustasin ma Pariisis magistriõpinguid ning see tähendab, et mul on kõvasti vähem vaba aega. Ja kõvasti vähem vaba raha. Ilma kasutajate saadetud õllerahata oleks mul vähem aega SK2 arendamiseks, sest peaksin seda raha teenima igavate veebilehtede loomisega.

Lemmikdžinn?
Bombay Sapphire London Dry, neli jääkuubikut, pool laimiviilu ja natuke toonikut.

Miks on SK2 välja lastud säärase imeliku litsentsiga?
Spam Karma 2 pole traditsiooniline GPL, vaid tavaline autoriõigustega kaitstud all rights reserved-tarkvara. Samas on see täiesti tasuta ning mittekommertslikuks levitamiseks ei pea kelleltki luba küsima.
Põhjus, miks ma säärase litsentsi projektile valisin, oli soov mitte näha seda, kuidas keegi paneb Wordpressi ja SK2 kokku ning müüb tulemust karbis 300 USD eest, nagu vahel GPL-itud tarkvaraga juhtub. Minu eesmärgiks pole projektiga raha teha ja ma ei taha, et ka keegi teine ilma minu loata projekti pealt teeniks.
99% kasutajate jaoks pole aga mingit reaalset vahet selle litsentsi ja GPL-i vahel.

Kui hästi suudab SK2 spämmi peatada?
Pagana hästi. Viimase aasta jooksul olen oma mitme blogi puhul, mis saavad rohkelt nii päris- kui ka spämmikommentaare, märganud, et SK2 peab kinni 99% spämmist ning päriskommentaare klassifitseerib spämmiks vaid umbes 0,1% juhtudest.
Ainukesed reklaamkommentaarid, mis läbi filtri jõudsid, olid need, kus kommentaar postitati käsitsi. Keegi inimene tuli blogile, luges ehk isegi postitust ning kirjutas kommentaari, mis nägi välja nagu päris kommentaar, kui välja arvata üks link kuhugi kommertslehele.
Sääraseid kommentaare on aga peaaegu võimatu peatada. SK2 põhiliseks tööpõhimõtteks on spämmirobotite peatamine ja blacklisting`ut kasutab ta suhteliselt vähe.
Säärased käsitsi postitatud kommertsteated polnud varem tõsiseks probleemiks. Spämmimise iva on ikkagi automatiseeritus, ilma milleta pole asjal enam suurt mõtet. Arvestades, kui palju võtab blogi administraatoril spämmi kustutamine aega ja kui palju on blogijad ning spämmereid, ei tasu reaalselt ära ükski meetod, mis on aeglasem kui paarsada kommentaari sekundis.

Viimastel aastatel on välja mõeldud mitmeid uusi meetodeid kommentaarispämmiga võitlemiseks. Millised neist töötavad, millised mitte? Miks?
Captcha`d (kontrollpildid tähtede ja numbritega – E.L.) töötavad. Tavalist tänapäevast captcha`t spämmerid lahti ei murra. Küll aga on nendega mitmeid tõsiseid probleeme.
Pimedad ei saa captcha`sid lugeda ning audiopõhised captcha`d eeldavad kasutajalt inglise keele oskust. Samuti on audiopõhiseid captcha`sid lihtsam automaatselt murda. Igasuguseid pildipõhiseid captcha`sid, millest saab aru minu vanaema, loeb ka lihtne simuleeritud närvivõrk.
Ja loomulikult on olemas inimesed, kes saavad palka käsitsi spämmimise eest. Neid juba captcha`dega ei peata.
Akismet töötab. Enam-vähem sama edukusega mis Spam Karma 2. Akismet tundub olevat isegi natuke efektiivsem spämmi klassifitseerimisel, kuid üheks tema probleemiks on päriskommentaaride liigne spämmiks liigitamine. Akismeti põhiprobleem on aga privaatsus ja vastupidavus – kõik sinu kommentaarid käivad läbi ühe keskse serveri.
Kahtlen, kas Akismet oma tsentraliseeritud lahendusega suudab kaua vastu pidada. Igasuguste tsentraliseeritud lahenduste probleemiks on teenusetõkestusründed ning andmete "mürgitamine". Praegu on veel natuke hingamisruumi, aga kui spämmerid suunavad oma tähelepanu Akismetile, siis ega see kaua vastu pea. Kui Akismet langeb, kaotavad sajad tuhanded blogid automaatse spämmifiltreerimise. Fakt, et Akismet tuleb nüüd Wordpressiga kaasa, teeb asjad vaid hullemaks.
Nofollow tuli liiga hilja ja seda on liiga vähe. Probleem no-follow-direktiiviga linkides on see, et nii blogijatel kui spämmeritel on üldiselt sama eesmärk: saada endale kõrge Google’i pagerank. Kas ahnuse või lihtsalt apaatia tõttu võttis no-follow kasutuselevõtt kaua aega. Teisest küljest jällegi spämmereid säärased pisidetailid ei huvita – kuniks maailmas on kas või vaid üks blogi, mis ei kasuta no-follow’t, levitavad spämmirobotid oma kommertsteateid kus iganes juhtub, lootuses pimesi märki tabada.
E-postispämmi puhul kasutuses olevad statistilised filtrid on tulevikus ehk isegi kasulikud, kuid hetkel kindlasti liigsed. Kommentaaride sisu põhjal filtreerimine ei oma mõtet, kuna spämmirobot võib näiteks kopeerida mõne eelneva päriskommentaari sisu ning muuta vaid aadressirea. Kommentaaride statistiline modelleerimine on kindlasti kasulik tehnika, kuid pole kasutatav nõnda nagu e-posti puhul.

Mis algoritme kasutab SK2 spämmi filtreerimiseks?
Ei midagi väga revolutsioonilist. Rohkelt heuristikat. Natuke sisuanalüüsi. Blacklist`id, whitelist`id, kommenteerimismustrid, RBL (Realtime Blacklist – E.L.) jpm.
Kõik need tehnikad eraldi on vaid umbes 50–70% efektiivsed. Kombineerituna töötavad nad aga suurepäraselt, sest enamik spämmirobotite programmeerijaid keskenduvad vaid ühe spämmivastase tehnika murdmisele ja teevad ka seal vaid minimaalse vajaliku.

Kuidas on spämmirobotid aegade jooksul arenenud? Kui eristatavad on nad inimestest?
Paljud spämmirobotid on endale kasvatanud kümme näppu, (väga väikese) aju ning saavad spämmimise eest kaks dollarit tunnis.
Mis puutub päris spämmirobotitesse, siis nemad on aegade jooksul arenenud, saamaks üle ja ümber igasugustest spämmivastastest meetoditest. Tänapäeval pärsivad nad kogu veebilehe, krabavad kõik vajalikud failid ning täidavad kõik tarvilikud veebivormid. Samuti töötavad nad suure hulga erinevate IP-aadresside pealt – tõenäoliselt on tegu nakatunud koduarvutitega.
99% kommentaarispämmist ei ole üldsegi muutunud. Tegu on sellesama vana lolli robotiga, mis postitab 500 pornolinki, 30 korda järjest, iga võimaliku veebivormi kaudu sinu lehel. Nende vastu võitlemiseks pole vaja rohkelt teadmisi ega keerulisi algoritme, vaid lihtsalt piisavalt võimsat protsessorit. Selliste robotite puhul aitab ka serveri tasemel IP järgi blokeerimine.
Ülejäänud 1% kasutab igasuguseid kavalaid tehnikaid. Kommentaarid sisaldavad suvalisi tekstijuppe, kommentaari sisu on kopeeritud mõnest teisest kommentaarist jmt. Tulemuseks näeb välja nagu päris kommentaar, kui välja arvata üks veebiaadress, mis on ka tihtipeale kuidagi varjatud.

Mis on järgmine suur samm spämmirobotite tehnoloogias?
Järgmiseks sammuks, või ehk juba praeguseks sammuks, on lihtsad koodijupid, näiteks Greasemonkey skript, mis jooksutavad päris veebibrausereid ja on seega eristamatud reaalsetest külastajatest. Vajadusel saavad säärased spämmirobotid kasutada ka inimese abi, postitamaks relevantseid kommentaare.

Ja järgmine suur samm kommentaarispämmiga võitlemise tehnoloogias? Kes selle kallal töötamas on?
Kes peale suvaliste pluginaarendajate ja blogitehnoloogiafirmade? Pole aimugi. "Tõsised" teadlased tunduvad huvitatud olema vaid e-postispämmist, kuid samu meetodeid ei ole võimalik rakendada kommentaarispämmi vastases võitluses.
Mina näen tulevikus detsentraliseeritud (p2p) blacklisting`ut, statistilist brausimismustrite klassifitseerimist, postitatud aadressi taga oleva veebilehe analüüsi, nende ideede kombineerimist... Võib-olla ka OpenID.
Olen nende ideedega natuke mänginud, kuid ükski neist pole valmis SK2 lisamiseks. Ja kuigi mõnel neist ideedest on minu arvates tohutu potentsiaal, võiks igaüks neist vabalt olla kogu arvutiteaduse magistritöö mahuline. Hetkel tegelen ma aga märksa lahedamate asjadega, mis ei sisalda spämmi ega blogisid.
Kommentaarispämmile pole ühtset lahendust. Igasugune efektiivne spämmivõitlemise vahend on kombinatsioon erinevatest ideedest ja tehnikatest.

Kas lahingut kommentaarispämmiga on võimalik võita?
Lahing on juba võidetud. Tõenäoliselt on võimalik ka sõda võita.

0 kommentaari:

Kontakt:

merlis (ät) am.ee
kaido (ät) am.ee

Kui on midagi füüsilist saata, siis:
Kirjastus Presshouse
Liimi 1, 10621 Tallinn
Me käime mõnikord seal ja saame kätte.

Juuni Arvutimaailm

Juuni Arvutimaailm

About Me