Perché lo spam del blog è sempre scritto così male?

100

Alcuni messaggi spam provenienti dal mio filtro Wordpress:

Asking questions are in fact pleasant thing if you are not understanding something totally, except this article gives good understanding yet.

e

Thanks for any other informative blog. Where else may I am getting that kind of information written in such an ideal means? I’ve a project that I’m simply now working on, and I have been on the look out for such info.

E 'solo che in pratica tutti gli spam dei blog provengono da paesi non di lingua inglese, o c'è qualche tipo di decisione tattica sulla lingua? Lo chiedo perché quando l'ho visto per la prima volta, ho pensato che forse erano genuini ma inarticolati.

    
posta Lucas 13.06.2013 - 19:33
fonte

10 risposte

136

Gli spammer generano automaticamente nuovi commenti prendendo i commenti esistenti e eseguendoli attraverso un programma di thesaurus che sostituisce le parole con sinonimi o parti del discorso correlate. Il risultato è una frase che ha senso, ma ha una scelta di parole che nessun madrelingua farebbe mai:

Where else may I am getting ...

chiaramente non è qualcosa che un madrelingua potrebbe scrivere, ma

Where else could she be getting...

è, e può essere trasformato da una semplice sostituzione di pronomi e sinonimi nel testo dello spam.

In questo modo, anche se le forze anti-spam hanno un enorme database di commenti di spam conosciuti, gli spammer possono generare infinitamente nuovi nuovi che sono plausibilmente inglesi.

Sospettavo da tempo che fosse così, ma di recente ho avuto delle prove. Ora ricevo occasionalmente spam di commenti contenenti l'intero script di sostituzione; sarà qualcosa del tipo:

I can't [believe/understand/comprehend] the [great/superior/amazing] [content/information/data]...

Dal momento che gli spammer erano probabilmente parlanti non di lingua inglese, non si sono accorti che stavano inviando lo script piuttosto che l'output.

Se esamini un corpus di spam abbastanza grande, puoi facilmente capire quali algoritmi stanno usando. Sarebbe una sfida interessante nel reverse engineering scrivere un programma che deduca gli algoritmi usati dal corpus.

I ask because when I first saw it, I thought perhaps they were being genuine but inarticulate.

Ti hanno ingannato una volta. Probabilmente non succederà più!

Il commentatore TildalWave sottolinea:

none of the sample spam messages OP posted actually endorse any products, or are otherwise promoting any other cause.

Bene, ti faccio un esempio: ecco un commento che è arrivato pochi minuti fa sul mio blog:

user name:  cuisinart compact toaster review
user url:   toasterovenpicks.com
user email: [email protected]
user IP:    37.59.34.218 
Comment contents:
One in particular clue for that bride and groom essential their
own absolutely new everything, actually a surname burned which has a mode,
which render nearly girl thankful recognizing their refreshing surname
therefore distinctively printed.

Il prodotto è promosso nei metadati dell'utente, non nel contenuto del commento. Il contenuto è solo un tentativo di superare il filtro antispam. (Sospetto che in questo caso il testo non sia una mutazione di un testo esistente ma piuttosto generato da un processo Markov su un corpus di documenti sulla pianificazione del matrimonio.)

Ovviamente anche le forze anti-spam sono puntate su questo, motivo per cui questo era nel mio filtro antispam. Il mio filtro antispam (akismet) consente mediamente uno spam per ogni 705 inviati. Di nuovo, questo è ciò che gli spammer stanno cercando; sanno che il 99,9% del loro lavoro non sarà mai visto da nessuno. Stanno cercando di esplorare casualmente lo spazio dei falsi negativi nei filtri spam, uno spazio che sta diventando davvero piccolo.

    
risposta data 13.06.2013 - 22:31
fonte
26

La lingua potrebbe avere poco a che fare con un sig di cui TidalWave stava parlando .

Un po 'innocuo spamdexing.

Ho ricevuto alcuni dei primi esempi sul mio blog. Sebbene sembri innocuo, in realtà sono spamdexing (un po 'di " black hat seo ") cercando di associare il proprio account utente (e i collegamenti del sito web per estensione) con le parole chiave nel blog (come diceva Xander , è marketing). Quando fai clic sul link, viene considerato un successo positivo dal blog. Se un blog ha abbastanza hit positivi per una ricerca chiave, il loro link otterrà un aumento di +1 dai motori di ricerca in relazione alla relatività per le parole chiave. La maggior parte dei motori di ricerca si è impadronita di questo problema e cerca di prevenirlo con le corrispondenze pertinenti nelle loro formule.

Il rovescio della medaglia è che se un utente arriva al tuo sito per qualcosa fuori tema a causa di questo spam e lascia (rimbalzi) i motori di ricerca penalizzeranno la classifica generale (a causa della mancanza di sostanza) e il tuo ranking per la pagina con il contenuto fuori tema. Mentre non c'è molto da fare con la sicurezza IT in spamdexing (a meno che non utilizzino un sito infetto come proprio URL), influisce negativamente sulle prestazioni [sociali] del sito se un numero sufficiente di spammer lo fa e abbatte il tuo sito nel classifica.

Riguardo al secondo esempio, contiene un hook per un'operazione di spam a due post (che si trova comunemente nei forum). Il primo poster creerà un account e invierà una domanda che sembra una preoccupazione legittima.

... Where else may I am getting that kind of information written in such an ideal means? ...

Poco dopo (entro 20 minuti circa, fino a un paio di giorni) un altro poster (di solito dallo stesso paese, se non lo stesso intervallo IP) creerà un nuovo account e pubblicherà la risposta, che contiene il collegamento è pertinente alla domanda del poster originale. Dal momento che la maggior parte dei moderatori non eliminerà ciò che sembra una vera discussione, il loro spam imbroglia di nuovo qualcuno ... è comunque spamming. Un esempio di stile di marketing migliore potrebbe essere:

I found a great resource for [keywords here] at [http://www.example.com/]. You should take a look since they have a lot of information related to [more keywords]. It should help you out.

Alcuni degli altri trucchi che faranno è un'immagine di firma che è una GIF trasparente a solo 1 pixel per 1 pixel e racchiusa in un tag <a> . Questo crea un collegamento ad un altro sito web ovunque il poster abbia digitato il loro contenuto senza senso. Solo perché non puoi vederlo, non significa che non sia lì.

Non è così innocuo Le minacce antispam hanno un impatto sulla sicurezza del server

Alcuni dei peggiori esempi di spam conterranno effettivamente un link a un sito infetto, oppure installeranno un javascript keylogger . (Ho visto il SVG hack utilizzato nelle linee delle firme per iniettare script dannosi.) Il keylogger è quello che dovrai fare attenzione perché può catturare il nome utente e la password del blog / amministratore del sito o di un altro utente con privilegi elevati quando cercano di accedere (o qualsiasi utente che crea un account) sulla stessa pagina per eliminare lo spam. Lo scenario migliore, se l'utente ha accesso sufficiente per vedere altri utenti, l'utente malintenzionato scaricherà l'elenco di indirizzi e-mail dagli utenti e invierà messaggi di posta indesiderata a un elenco di marketing (marketing) mirato.

I nuovi utenti innocenti possono ritirare le credenziali e poiché la maggior parte delle persone usa le stesse password e lo stesso indirizzo e-mail ovunque, ora i loro account altrove possono essere compromessi. (Facebook, LinkedIn, ecc.)

Scenario peggiore, perché la maggior parte degli sviluppatori web dei sistemi CMS non si aspetta che qualcuno con "skillz" entri nel back-end tramite uno di questi metodi (trusted), non stanno facendo cose come controllare tutto l'amministratore moduli per XSS o Iniezioni MySQL (ho notato alcuni dei miei sviluppatori che hanno tagliato gli angoli con questo metodo). Da XSS a SQL injection dipende quindi dalla sicurezza della scatola, dalle limitazioni degli account utente (non eseguire Apache come root) e dall'accesso in lettura / scrittura. Dal momento che si trovano nel CMS, si può presumere che l'utente possa scrivere qualsiasi cosa nella casella che desidera. Elimina il database, infetti il sito con una backdoor ... ora è un problema di sicurezza IT.

    
risposta data 14.06.2013 - 02:24
fonte
17

Non so se nel tuo caso il testo che hai segnalato fosse l'intero commento (quale sarebbe poi il suo scopo, sia come commento genuino o come spam / truffa?).

Nel caso in cui non lo fosse - e quando lo spam deve funzionare come preludio all'interazione futura - allora scriverlo in inglese povero potrebbe essere fatto di proposito , come un "controllo" per una vittima è abbastanza stupido da non riconoscere immediatamente la truffa e quindi vale la pena investire tempo.

Fonte: Perché i truffatori nigeriani dicono che provengono dalla Nigeria? di Cormac Herley, Microsoft Research.

    
risposta data 14.06.2013 - 01:00
fonte
17

La mia azienda era solita fare "girare", che come una delle risposte sopra menzionate sta programmaticamente eseguendo la ricerca del thesaurus e sostituisce il testo. Tuttavia, lo faremmo in più livelli complessi.

  1. In realtà abbiamo impiegato veri scrittori americani per scrivere la copia originale.
  2. Questi autori originali avrebbero contrassegnato il proprio documento utilizzando una sintassi speciale che abbiamo creato, contrassegnando parole, raggruppamenti di parole, frasi e frasi intere, compresi i sinonimi che ritenevano appropriati per ciascun caso. Ciò significava sinonimi di frasi intere che potevano essere scambiate senza cambiare significato. Lo farebbero in un software di modifica del testo che abbiamo creato per fornire loro suggerimenti di completamento automatico.
  3. Ogni volta che uno scrittore segna il proprio documento, memorizziamo tutti i sinonimi e le frasi in un dizionario e li usa per aggiungere suggerimenti allo scrittore per il loro prossimo incarico.
  4. Premi GO sulla macchina e ottieni centinaia / migliaia di varianti.
  5. Divvy i blocchi di varianti del nostro team SEO nelle Filippine, il cui unico compito era quello di trovare blog, forum e altri siti Web di alta qualità troppo stupidi per bloccarci.

È interessante notare che non abbiamo mai automatizzato la parte di posting effettiva, poiché quella era la cosa più facile da individuare per le macchine. Un vero umano stava postando quella spazzatura.

Ah, i bei vecchi tempi di rovinare internet per tutti.

    
risposta data 14.06.2013 - 05:57
fonte
10

Forse questo non risponderà alla domanda dell'OP, ma quegli spam non sono pensati per far comprare qualcosa a qualcuno.

Il punto è creare il numero massimo di commenti con collegamenti a pagine o siti particolari che gli spammer desiderano migliorare il proprio PageRank. Questi siti sono dove si svolgerà il vero lavoro di sedurre potenziali acquirenti (o hackerare computer di potenziali vittime, o entrambi).

Ecco perché quasi ogni spam ha almeno un link. E quando non lo fa, è generalmente un commento appositamente predisposto ("Un articolo geniale", "Grazie per aver condiviso questo" ...) dove l'obiettivo è ottenere il commento approvato e concedere al bot l'accesso diretto senza passare la coda di moderazione. Perché in alcuni CMS e forum, quando un utente raggiunge un numero minimo di messaggi approvati, sarà "taggato" come affidabile e non dovrà essere approvato ogni volta.

Quindi lo spam non è pensato per gli esseri umani ma per le macchine (motori di ricerca) e gli spammer devono fare tutto il possibile per influenzare i motori di ricerca. Quindi, non perdono tempo nel contenuto, dal momento che nessun essere umano lo leggerà e si concentrerà su meccanismi che rendono più rapidi e semplici molti messaggi.

In una parola, non sei il bersaglio, sei solo un danno collaterale.

    
risposta data 14.06.2013 - 04:00
fonte
9

Probabilmente è una combinazione dei due. Se usano un linguaggio che non ha un senso grammaticale appropriato, c'è più probabilità che qualcuno possa interpretarlo erroneamente come un vero e proprio feedback su un post dal momento che proveranno a riempire gli spazi vuoti in un modo che abbia senso. In definitiva, la maggior parte di questo tipo di spam sta tentando di diffondere collegamenti sul Web per cercare di influire sui ranking della ricerca.

Per far sì che i collegamenti rimangano attivi, hanno bisogno che i loro commenti sembrino genuini per renderli più difficili da estrarre facilmente da commenti genuini. Fanno risposte generiche dal suono che "potrebbero" plausibilmente essere valide nella speranza che vengano lasciate attive.

In altre situazioni, questo è il risultato del tentativo di inserire parole chiave nel commento in modo da aumentare l'associazione del collegamento con tali parole chiave.

    
risposta data 13.06.2013 - 20:09
fonte
6

Oltre alle risposte corrette pubblicate sopra, c'è un strong bias di campionamento per la tua domanda.

Riconosci solo i post del blog di spam malamente predisposti come spam del blog. Non si riconosce mai lo spam del blog davvero ben fatto come spam del blog. Quindi sembra che tutto lo spam del blog sia mal fatto.

AmIRight?

    
risposta data 13.06.2013 - 23:37
fonte
4

Molto spesso i blogspammer usano i filatori di contenuti. Sostituiscono le parole con i sinonimi, che dovrebbero funzionare in teoria, ma in realtà fa sembrare il commento scritto da un bambino di 4 anni; o qualcuno che non ha l'inglese come prima lingua.

La maggior parte degli spinners di contenuti condivide una sintassi comune (esempio della risposta di Eric Lippert):

I can't [believe/understand/comprehend] the [great/superior/amazing] [content/information/data]...

Questo significa che lo spinner del contenuto sceglierà una parola casuale da ogni parentesi per costruire la frase. In questo modo puoi ottenere una grande varietà di commenti simili, senza duplicati esatti, rendendo più difficile ai plug-in anti-spam identificare contenuti simili se utilizzano un checksum come md5 per confrontare i commenti con lo spam precedente.

    
risposta data 14.06.2013 - 02:18
fonte
4

Potrebbero esserci modelli come questo: link , che è stato recentemente pubblicato per sbaglio sul sito di Scott Hanselman: link

Come altri hanno già detto, tutto ciò che deve essere fatto è scrivere uno script per estrarre una parola a caso dagli elenchi tra parentesi.

    
risposta data 14.06.2013 - 17:37
fonte
1

Si può semplicemente dire che devi essere a conoscenza del SEO (Search Engine Optimization) IT ha 2 tipi di tecniche in major 1) Black Hat e 2) White Hat

Il cappello bianco funziona in modo autentico o autentico.

ma da dove nasce il tuo problema, quello che fanno è che hanno creato il numero di nome utente, password o elenco di blog aperti ... continuano a pubblicare contenuti sulla base del loro requisito (parole chiave) in modo che darà loro clic interni sul loro sito ..

Come dice la prima risposta, usano un software intelligente che capisce parzialmente il linguaggio e crea un paragrafo sulla base di determinate parole chiave.

Quindi, avrà un senso, ma non avrà alcun senso ...:)

Spero che abbia senso nel contesto della tua domanda ..

    
risposta data 14.06.2013 - 05:52
fonte

Leggi altre domande sui tag