Gli spammer generano automaticamente nuovi commenti prendendo i commenti esistenti e eseguendoli attraverso un programma di thesaurus che sostituisce le parole con sinonimi o parti del discorso correlate. Il risultato è una frase che ha senso, ma ha una scelta di parole che nessun madrelingua farebbe mai:
Where else may I am getting ...
chiaramente non è qualcosa che un madrelingua potrebbe scrivere, ma
Where else could she be getting...
è, e può essere trasformato da una semplice sostituzione di pronomi e sinonimi nel testo dello spam.
In questo modo, anche se le forze anti-spam hanno un enorme database di commenti di spam conosciuti, gli spammer possono generare infinitamente nuovi nuovi che sono plausibilmente inglesi.
Sospettavo da tempo che fosse così, ma di recente ho avuto delle prove. Ora ricevo occasionalmente spam di commenti contenenti l'intero script di sostituzione; sarà qualcosa del tipo:
I can't [believe/understand/comprehend] the [great/superior/amazing] [content/information/data]...
Dal momento che gli spammer erano probabilmente parlanti non di lingua inglese, non si sono accorti che stavano inviando lo script piuttosto che l'output.
Se esamini un corpus di spam abbastanza grande, puoi facilmente capire quali algoritmi stanno usando. Sarebbe una sfida interessante nel reverse engineering scrivere un programma che deduca gli algoritmi usati dal corpus.
I ask because when I first saw it, I thought perhaps they were being genuine but inarticulate.
Ti hanno ingannato una volta. Probabilmente non succederà più!
Il commentatore TildalWave sottolinea:
none of the sample spam messages OP posted actually endorse any products, or are otherwise promoting any other cause.
Bene, ti faccio un esempio: ecco un commento che è arrivato pochi minuti fa sul mio blog:
user name: cuisinart compact toaster review
user url: toasterovenpicks.com
user email: [email protected]
user IP: 37.59.34.218
Comment contents:
One in particular clue for that bride and groom essential their
own absolutely new everything, actually a surname burned which has a mode,
which render nearly girl thankful recognizing their refreshing surname
therefore distinctively printed.
Il prodotto è promosso nei metadati dell'utente, non nel contenuto del commento. Il contenuto è solo un tentativo di superare il filtro antispam. (Sospetto che in questo caso il testo non sia una mutazione di un testo esistente ma piuttosto generato da un processo Markov su un corpus di documenti sulla pianificazione del matrimonio.)
Ovviamente anche le forze anti-spam sono puntate su questo, motivo per cui questo era nel mio filtro antispam. Il mio filtro antispam (akismet) consente mediamente uno spam per ogni 705 inviati. Di nuovo, questo è ciò che gli spammer stanno cercando; sanno che il 99,9% del loro lavoro non sarà mai visto da nessuno. Stanno cercando di esplorare casualmente lo spazio dei falsi negativi nei filtri spam, uno spazio che sta diventando davvero piccolo.